19293

吐槽完 Sora，Google自己做的“基础世界模型”来了

站长网2024-02-27 18:03:420阅

曾通过Gemini 1.5 Pro指出Sora生成视频不合理，质疑它担不起“世界模型”称号的Google，G字辈模型喜添新成员。

今天，Google DeepMind推出人工智能模型「Genie」，一个能够生成交互式视频游戏的 AI。它可以根据用户提示，将合成图像、真实照片、手绘草图或想法转换成无尽多样的，可互动、可控制动作的虚拟世界。

Google认为，现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库，不仅能训练模型生成图像或视频，还可以创造完整的互动体验呢？

团队将其概括为一种全新GenAI范式：「生成式交互环境」，并称由于Genie实现了人们与想象世界的自由互动，本质上它才是真正的“基础世界模型”。

一键生成无限可玩世界

在成果演示中，研究人员将Imagen2 生成的图像作为起始帧，通过Genie赋予生命：

不仅如此，真实世界中的物体也可以自由操控：

甚至小朋友充满童真的草图，也变成了想象力无限的游戏：

Genie为生成和步入虚拟世界开启了更多新的方式，也能够启迪更广泛的内容创作者。DeepMind高级研究顾问Jeff Clune在X兴奋地分享道：

“这里实现的一个惊人之处是，任何人包括孩子们都可以绘制一个世界，然后进入其中探索它。这有多酷啊？我们用我孩子的画作测试了Genie。他们画了两只鹰，然后就可以操控着鹰到处飞。简直魔法！”

20 万小时视频训练，无需行动标签即可学习控制

在《一千零一夜》里，仅需摩擦神灯，精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie，首先必须把知识和能力填充进灯里。

项目负责人Tim Rocktäschel在X上写道，与“inductive biases（归纳偏见）”不同，团队专注于规模，使用了一个包含超过 20 万小时的2D平台游戏视频数据集，来训练这个 110 亿参数的世界模型。

作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境， Genie学会了控制角色的各种潜在动作，并且保持一致性。

实现这种精细控制是一个挑战，也正是Genie的独特之处。因为互联网视频通常没有关于哪个动作正在执行，甚至哪个图像部分应该被控制的标签。但Genie却可以确定谁是主角，并使用户能够在生成的世界中逐帧控制该角色。

并且，Genie通过学习产生的这个既丰富多样又一致性强的潜在动作空间，对于人类来说是可解释的。换句话说，即使是未经训练的用户，在与 Genie 生成的游戏世界互动几次之后，也能自然理解并做出向左、向右或跳跃等常见动作，形成多样化的运动轨迹。

项目组也解释了Genie模型背后的三个关键组件：

•一个潜在动作模型（LAM），用于推断每对帧之间的潜在动作。

•一个视频分词器（Video tokenizer），具有时间感知能力，与OpenAI在Sora中的“patches”概念类似，能将原始视频压缩为离散令牌。

•一个动力学模型（Dynamics model），能够在给定潜在动作和过去帧令牌的条件下，预测视频下一帧。

整个运行过程如上图所示：将帧视频作为输入，通过视频分词器将它们转换成离散的令牌𝒛，并由潜在动作模型在每帧之间推断潜在动作𝒂。之后这两者都传递给动力学模型，以迭代方式生成下一帧的预测。

论文地址在这里，感兴趣的小伙伴可以自行查看：https://arxiv.org/abs/2402.15391

关于“世界模型”的较劲

在整个Genie的介绍中，“动作”成了出现频率最高的词汇。这也正是Google对于「世界模型」的理解。

这个近期被OpenAI的Sora点燃的课题曾引发一场业界大辩论。Meta首席科学家Yann LeCun就首当其冲质疑了Sora的技术路径。他认为，仅从语言提示生成看起来逼真的视频，并不意味着系统真正理解了物理世界，“内容生成”实则与世界模型中进行的因果预测非常不同。

Tim Rocktäschel此处转发表示赞同，先是肯定Sora 在视觉效果上确实令人印象深刻。接着表示“正如 LeCun所说，一个世界模型需要动作”，Genie 才是那个可以控制动作的世界模型。

曾表扬Sora是一个「数据驱动的物理引擎」，一个「可学习的模拟器或世界模型」的英伟达高级研究科学家Jim Fan，也再次开启夸夸模式：

“Tim 是我所知道的最有想象力的研究者之一，而 Genie 是他最具想象力的作品。不同于Sora，Genie 实际上是一个以推断合适动作为驱动的世界模型。

2024 年也将是基础世界模型的一年！”

怎么条条大路通AGI？

Google还进一步表示，“Genie有朝一日会成为训练多任务智能体的基础世界模型，是生成式虚拟世界的未来”。

以往许多成果已经表明，游戏环境可以作为开发AI Agent的有效试验场。虽然目前的Genie只是基于游戏数据训练的，但它是一种通用方法。不仅限于二维环境或应用程序，还适用于多种类型的数据和场景，而无需任何额外专业知识。

为证明这一点，团队专门拿一些没有动作标签的机器人视频训练了一个 25 亿参数的Genie模型。结果它不仅学会了机器人手臂的控制，还学会了各种物体的互动和薯片包这样可变形物体的物理属性。

由此看出，Genie能够从机器人视频数据创建一个动作模拟器。换句话说，就算它没有被明确教导那些动作是什么，也能够看视频学会复制和预测各种动作。

Genie团队认为，世界模型应该是一个能够理解和与环境交互的系统，这种交互不是预先编程的，也不限于特定任务。Genie的核心是利用未标记视频数据进行无监督学习，并创建「生成式互动环境」，正是为实现AGI而迈出的重要一步。

当然，Genie还没有发布日期，目前只是作为一个研究项目，是否会成为真正的产品也还不清楚。除此以外，Tim也开诚布公地说，“Genie运行速度是每秒 1 帧，因此现在距离实时可玩还有很远的距离。”难怪乎有网友形容，这看起来像个来自 80 年代的“马里奥GPT”。

不过多数人还是报以肯定，认为短期到中期它将革新生成式游戏，长期则有可能解锁训练更多领域的AI智能体。项目团队也非常振奋，DeepMind研究总监Edward Grefenstette激动感慨道：

“今天的 Genie 可能看起来只是像素块的跳跃和奔跑，但它实现了可控视频生成从 0 到 1 的巨大飞跃。几年以后，面对更逼真的可控视频生成，我们也许会把这看作是「威尔·史密斯吃意大利面」时刻。”

毕竟，“This is the worst it will ever be.”

吐槽完SoraGoogle自己做的基础世界模型来了

0000

评论列表

共(0)条

相关推荐

站长资讯
微信朋友圈可以发实况图了，包含动态画面和声音
标题:微信朋友圈全新升级!实况照片功能来袭微信朋友圈又有了新功能，这次可是个大惊喜哦!根据微信派的官方消息，现在你可以在朋友圈中发布实况照片了!这意味着你的照片不仅仅是静态的，还可以包含动态画面和声音，让你的分享更加生动有趣。
站长网2024-09-20 18:03:56
0001
站长资讯
美国联邦航空局否认在系统中使用ChatGPT编写代码
美国联邦航空局（FAA）发表声明，否认在其空中交通运营(ATO)或任何其他系统中使用ChatGPT来编写计算机代码。该声明是在美国交通部发布了人工智能使用清单后匆忙发表的。交通部要求其组织列举所有人工智能使用情况以遵守一项行政命令。
站长网2023-07-27 16:44:09
0000
站长资讯
《御魂师之封神令》侵权网易阴阳师手游后者获赔30万元
网易阴阳师手游宣布，涉及2020年上映电影《御魂师之封神令》侵犯《阴阳师》手游知识产权一案，经过数年不懈维权后，已于近日取得了案件的最终胜诉。法庭判决被告需支付经济赔偿总计30万元，并就给我方和广大游戏玩家带来的负面影响公开道歉。对于此次维权案件所获得的所有赔偿，将全数捐赠给小动物公益项目。
站长网2023-07-05 19:09:05
0000
站长资讯
Sam Altman 警告人工智能的潜在威胁但仍然希望全世界都能使用它
站长之家(ChinaZ.com)11月1日消息：OpenAI的CEOSamAltman最近对公众表示，他的公司背后的技术可能会威胁到人类文明的未来。今年5月，Altman在华盛顿特区的一个参议院小组委员会听证会上紧急呼吁立法者：制定周密的法规，以拥抱人工智能的强大前景，同时减轻其对人类的潜在威胁。这是他和AI未来的决定性时刻。
站长网2023-11-01 09:42:28
0000
站长资讯
TikTok测试一项AI歌曲创作功能“AI Song”
划重点:1.TikTok推出AISong功能，让用户通过文本提示创作歌曲，由AI“歌手”演唱。然而，初期反馈表明生成的歌曲并不像之前在平台上流行的AI歌曲那样引人注目。2.尽管一些用户已经开始尝试这一功能，但结果并不理想，许多歌曲音调不准，即使有自动调音功能。一些用户创作的歌曲出现了节奏不合理的情况。
站长网2024-01-19 10:38:46
0001