Pandora:根据自然语言指令生成动作和视频的通用世界模型

站长网2024-05-24 21:12:070阅

划重点:

🔍 Pandora 是一个通向通用世界模型（GWM）的重要步骤，通过生成视频来模拟任何领域的世界状态。

🔍 Pandora 可以接受自然语言输入作为动作，并在视频生成过程中实时控制视频内容，与之前只能在视频开始时输入文本提示的文本到视频模型有着关键的不同。

🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频，让用户能够自主控制未来的发展。

Pandora 是一个研究通用世界模型（GWM）的重要进展，其目标是通过生成视频来模拟任何领域的世界状态，并提供自然语言的实时控制。

与之前的文本到视频模型不同，Pandora 可以接受自由文本的动作输入，实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺，并增强了强大的推理和规划能力。比如生成视频的过程中，用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”，Pandora 会即时地根据这些指令调整视频内容，实现动态控制。

产品入口网址：https://top.aibase.com/tool/pandora

Pandora 还能够生成基于相同初始状态但不同动作的多个替代未来的视频。用户可以通过输入不同的动作来控制视频的发展方向，实现对未来的自主控制。这种能力使得世界模型不再只是模拟替代未来，而是能够真正实现对未来的控制。

Pandora 能够在各种通用领域生成视频，包括室内 / 室外、自然 / 城市、人类 / 机器、2D/3D 等场景。通过使用高质量数据进行指导和训练，模型可以学习有效的动作控制，并在不同领域中实现迁移学习。例如，Pandora 在训练时只接触过2D 游戏 Coinrun，但可以无缝地将学到的动作应用于其他2D 游戏。

Pandora 将视频模型与自主生成的 Pandora 背骨结合在一起，可以生成更长的视频，甚至可以达到无限长度。通过这种结合，Pandora 能够生成长达8秒的视频，即使训练时的视频长度最多只有5秒。

然而，作为通向 GWM 的初步步骤，Pandora 仍然存在一些限制。它可能无法生成一致的视频，模拟复杂场景，理解常识和物理定律，以及遵循指令 / 动作。

Pandora 是通向通用世界模型的重要一步，它通过自然语言动作和视频状态的模拟生成，实现了对未来的自主控制，为交互式内容生成、强大的推理和规划能力提供了支持。

Pandora根据自然语言指令生成动作和视频的通用世界模型

0000

评论列表

共(0)条

相关推荐

站长资讯
罗永浩微博暗示年末或有大动作，网友期待新品发布
站长之家(ChinaZ.com)9月1日消息:昨晚，一名博主在微博上@罗永浩·钮祜禄，称自己的坚果R2手机已停止工作。对此，罗永浩回应道:“没事，差不多到年底的时候，你会发现用什么手机都一样。”这一回应引发了广泛的猜测和讨论。
站长网2024-09-02 09:51:11
0000
站长资讯
32k上下文可商用！长颈鹿来袭,开源大模型长度再创新高
要点:长颈鹿是基于LLaMA模型打造的，上下文长度达到32k，是目前开源大模型中最长的。研发团队Abacus.AI通过测试不同的上下文外推方法，发现线性插值效果最好，并在此基础上提出了PowerScaling和TruncatedBasis两种新思路。尽管Abacus.AI宣称长颈鹿是首个32k开源模型，但Together.AI更早发布了类似规模的版本，两者可以说并列第一。
站长网2023-08-26 16:04:51
0000
站长资讯
天猫上线AI砍价功能网友：AI的出击让我“脚趾扣地”
近日，小红书博主“脆皮钵钵柒”在平台上分享了自己在天猫App中的新奇体验。他在购物车页面偶然发现了一个“帮讲价”的按钮，出于好奇尝试点击后，出现了客服对话页面，AI主动出击，向商家提出“￥38.3卖不卖”的砍价要求，这一行为让博主感到十分尴尬，形容自己“脚趾扣地”。
站长网2024-04-24 16:11:31
0000
站长资讯
抖音：重点打击“售卖账号”“售卖好评卡”“恶意控评”三类水军行为
抖音最近对三类水军行为进行了重点打击:售卖账号、售卖好评卡和恶意控评。首先，抖音发现一些用户在平台上售卖高等级账号，宣称可以获得更多关注和热度，引导其他用户通过第三方渠道进行交易，但购买账号不能带来真正的流量，而且存在欺诈风险。其次，还有一类用户在平台上售卖电子好评返现卡，即商家发布好评后可获得返现红包，这是刷赞、刷好评的水军行为，同时也存在欺诈风险。
站长网2024-04-24 17:17:39
0000
站长资讯
QQ浏览器推出“PDF阅读助手”AI工具由腾讯混元大模型支持
近日，QQ浏览器推出了一款名为“PDF阅读助手”的智能工具，用户可以申请加入体验测试。该工具由腾讯混元大模型支持，可以在手机或电脑上随时使用。“PDF阅读助手”具有以下特点:首先，它支持智能摘要功能，用户不再需要逐页阅读长篇文档。通过一键操作，该助手可以迅速为您提炼出重要信息，大大节省了阅读时间。
站长网2023-10-13 08:41:14
0000