Pandora:根据自然语言指令生成动作和视频的通用世界模型
划重点:
🔍 Pandora 是一个通向通用世界模型(GWM)的重要步骤,通过生成视频来模拟任何领域的世界状态。
🔍 Pandora 可以接受自然语言输入作为动作,并在视频生成过程中实时控制视频内容,与之前只能在视频开始时输入文本提示的文本到视频模型有着关键的不同。
🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频,让用户能够自主控制未来的发展。
Pandora 是一个研究通用世界模型(GWM)的重要进展,其目标是通过生成视频来模拟任何领域的世界状态,并提供自然语言的实时控制。
与之前的文本到视频模型不同,Pandora 可以接受自由文本的动作输入,实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺,并增强了强大的推理和规划能力。比如生成视频的过程中,用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”,Pandora 会即时地根据这些指令调整视频内容,实现动态控制。
产品入口网址:https://top.aibase.com/tool/pandora
Pandora 还能够生成基于相同初始状态但不同动作的多个替代未来的视频。用户可以通过输入不同的动作来控制视频的发展方向,实现对未来的自主控制。这种能力使得世界模型不再只是模拟替代未来,而是能够真正实现对未来的控制。
Pandora 能够在各种通用领域生成视频,包括室内 / 室外、自然 / 城市、人类 / 机器、2D/3D 等场景。通过使用高质量数据进行指导和训练,模型可以学习有效的动作控制,并在不同领域中实现迁移学习。例如,Pandora 在训练时只接触过2D 游戏 Coinrun,但可以无缝地将学到的动作应用于其他2D 游戏。
Pandora 将视频模型与自主生成的 Pandora 背骨结合在一起,可以生成更长的视频,甚至可以达到无限长度。通过这种结合,Pandora 能够生成长达8秒的视频,即使训练时的视频长度最多只有5秒。
然而,作为通向 GWM 的初步步骤,Pandora 仍然存在一些限制。它可能无法生成一致的视频,模拟复杂场景,理解常识和物理定律,以及遵循指令 / 动作。
Pandora 是通向通用世界模型的重要一步,它通过自然语言动作和视频状态的模拟生成,实现了对未来的自主控制,为交互式内容生成、强大的推理和规划能力提供了支持。
618|去”超头化“攻防战
电商大促的浪潮中,超级主播一直都是媒体、消费者的焦点。然而,今年头部主播讨论度依然火热,带货热度却似乎有所降温。6月8日,新东方、东方甄选CEO俞敏洪发布公开信,向东方甄选的客户、股东和投资者道歉,并澄清了此前关于“东方甄选做得乱七八糟”的表述。站长网2024-06-12 01:00:370000低质量AI生成网站获广告支撑 数量高达217个
新闻网站评级工具NewsGuard公布了2023年6月的错误信息监控结果,称141个品牌正在为低质量的人工智能(AI)生成的网站提供广告收入,用于支持这些不可靠网站的发展。这些网站几乎没有人对其进行监督,每天平均会生成上千条文章,其中包括错误信息,尤其是误导用户的医疗健康信息。站长网2023-06-29 12:13:380000Instagram将标记人工智能生成的内容
本文要点:1.Instagram将为由ChatGPT等人工智能生成的社交媒体帖子添加"AI生成内容"标签。2.这一举措是Meta和其他六家大型科技公司在白宫宣布自愿承诺确保AI安全后的一项重要举措。3.专家表示,这将有助于帮助人们区分聊天机器人和真实内容,为减轻AI带来的威胁迈出关键一步。站长网2023-08-03 17:00:280000微信:9月15日起 需同意小程序隐私保护指引才可调用隐私接口
为规范开发者的用户个人信息处理行为,保障用户的合法权益,微信公众平台表示,自2023年9月15日起,对于涉及处理用户个人信息的小程序开发者,微信要求,仅当开发者主动向平台同步用户已阅读并同意了小程序的隐私保护指引等信息处理规则后,方可调用微信提供的隐私接口。站长网2023-08-15 08:22:1400052024年AI手机出货量有望达6000万部,仍远超AI个人电脑
据市场调研机构Canalys最新预测,2024年全球智能手机出货总量中,预计约5%会搭载端侧AI运算能力,这相当于6000万部AI手机。而业内人士分析,智能手机巨大的用户规模、便携性强以及应用生态完善等特点,使其成为端侧AI最理想的落地平台。相比PC,智能手机在图像信号处理器、神经网络处理单元等芯片上运行AI算法已经不是新事。但大型语言模型的涌现,促使行业重新定义何谓“AI手机”。0000