Pandora:根据自然语言指令生成动作和视频的通用世界模型
划重点:
🔍 Pandora 是一个通向通用世界模型(GWM)的重要步骤,通过生成视频来模拟任何领域的世界状态。
🔍 Pandora 可以接受自然语言输入作为动作,并在视频生成过程中实时控制视频内容,与之前只能在视频开始时输入文本提示的文本到视频模型有着关键的不同。
🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频,让用户能够自主控制未来的发展。
Pandora 是一个研究通用世界模型(GWM)的重要进展,其目标是通过生成视频来模拟任何领域的世界状态,并提供自然语言的实时控制。
与之前的文本到视频模型不同,Pandora 可以接受自由文本的动作输入,实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺,并增强了强大的推理和规划能力。比如生成视频的过程中,用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”,Pandora 会即时地根据这些指令调整视频内容,实现动态控制。
产品入口网址:https://top.aibase.com/tool/pandora
Pandora 还能够生成基于相同初始状态但不同动作的多个替代未来的视频。用户可以通过输入不同的动作来控制视频的发展方向,实现对未来的自主控制。这种能力使得世界模型不再只是模拟替代未来,而是能够真正实现对未来的控制。
Pandora 能够在各种通用领域生成视频,包括室内 / 室外、自然 / 城市、人类 / 机器、2D/3D 等场景。通过使用高质量数据进行指导和训练,模型可以学习有效的动作控制,并在不同领域中实现迁移学习。例如,Pandora 在训练时只接触过2D 游戏 Coinrun,但可以无缝地将学到的动作应用于其他2D 游戏。
Pandora 将视频模型与自主生成的 Pandora 背骨结合在一起,可以生成更长的视频,甚至可以达到无限长度。通过这种结合,Pandora 能够生成长达8秒的视频,即使训练时的视频长度最多只有5秒。
然而,作为通向 GWM 的初步步骤,Pandora 仍然存在一些限制。它可能无法生成一致的视频,模拟复杂场景,理解常识和物理定律,以及遵循指令 / 动作。
Pandora 是通向通用世界模型的重要一步,它通过自然语言动作和视频状态的模拟生成,实现了对未来的自主控制,为交互式内容生成、强大的推理和规划能力提供了支持。
北京交管局回应小米汽车送车牌传闻:暂未收到相关通知
站长之家(ChinaZ.com)2月23日消息:近日,有传闻称,对于首批购买小米汽车的车主,如果没有北京牌照,可能会获得赠送的牌照。这一消息引起了广泛关注和猜测。据新浪科技报道,针对此事,截止发稿时,小米方面并未对此消息做出官方回应。站长网2024-02-23 14:46:480000华为P60、Mate 50等35款设备升级HarmonyOS 4.2正式版
华为今日宣布,包括P60、Mate50、MateX3系列在内的35款设备将正式升级至HarmonyOS4.2系统。此次升级不仅限于智能手机,还涵盖了耳机、手表、智慧屏和家庭存储等多款智能设备,标志着华为在构建全场景智慧生态方面迈出了重要一步。站长网2024-05-21 10:53:200000汤姆猫:AI产品已初步实现情境对话、AI识物、AI绘图等功能
汤姆猫近日表示,在人工智能上,公司关注到ChatGPT相关技术的应用后,借助国内外的通识大模型,公司致力于将“会说话的汤姆猫”迭代为“会聊天的汤姆猫”。截至目前,公司国内研发团队打造的AI产品已初步实现情境对话、英语口语启蒙、AI识物、AI绘图等功能。站长网2023-07-25 12:20:430000零一万物API开放平台出场!通用Chat多模态通通开放,还有200K超长上下文版本
3月,国内外模型公司动作频频。国产大模型独角兽“五小虎”之一零一万物也有诸多新动作。这不,前脚刚发布高性能向量数据库,零一万物又立马正式发布了自己的API开放平台,共为开发者提供三个版本的模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K上下文,多文档阅读理解、超长知识库构建小能手。站长网2024-03-16 13:45:210001OpenAI 发布新的 API 更新:成本显著降低、新的函数调用功能以及 GPT-3.5-turbo-16k 上下文版本
OpenAI在周二宣布了其大型语言模型API(包括GPT-4和gpt-3.5-turbo)的一次重大升级,其中包括新的函数调用功能、显著的成本降低以及gpt-3.5-turbo模型的16,000tokencontextwindow(下文窗口)选项。站长网2023-06-15 03:53:100002