吐槽完 Sora,Google自己做的“基础世界模型”来了
曾通过Gemini 1.5 Pro指出Sora生成视频不合理,质疑它担不起“世界模型”称号的Google,G字辈模型喜添新成员。
今天,Google DeepMind推出人工智能模型「Genie」,一个能够生成交互式视频游戏的 AI。它可以根据用户提示,将合成图像、真实照片、手绘草图或想法转换成无尽多样的,可互动、可控制动作的虚拟世界。
Google认为,现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库,不仅能训练模型生成图像或视频,还可以创造完整的互动体验呢?
团队将其概括为一种全新GenAI范式:「生成式交互环境」,并称由于Genie实现了人们与想象世界的自由互动,本质上它才是真正的“基础世界模型”。
一键生成无限可玩世界
在成果演示中,研究人员将Imagen2 生成的图像作为起始帧,通过Genie赋予生命:
不仅如此,真实世界中的物体也可以自由操控:
甚至小朋友充满童真的草图,也变成了想象力无限的游戏:
Genie为生成和步入虚拟世界开启了更多新的方式,也能够启迪更广泛的内容创作者。DeepMind高级研究顾问Jeff Clune在X兴奋地分享道:
“这里实现的一个惊人之处是,任何人包括孩子们都可以绘制一个世界,然后进入其中探索它。这有多酷啊?我们用我孩子的画作测试了Genie。他们画了两只鹰,然后就可以操控着鹰到处飞。简直魔法!”
20 万小时视频训练,无需行动标签即可学习控制
在《一千零一夜》里,仅需摩擦神灯,精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie,首先必须把知识和能力填充进灯里。
项目负责人Tim Rocktäschel在X上写道,与“inductive biases(归纳偏见)”不同,团队专注于规模,使用了一个包含超过 20 万小时的2D平台游戏视频数据集,来训练这个 110 亿参数的世界模型。
作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境, Genie学会了控制角色的各种潜在动作,并且保持一致性。
实现这种精细控制是一个挑战,也正是Genie的独特之处。因为互联网视频通常没有关于哪个动作正在执行,甚至哪个图像部分应该被控制的标签。但Genie却可以确定谁是主角,并使用户能够在生成的世界中逐帧控制该角色。
并且,Genie通过学习产生的这个既丰富多样又一致性强的潜在动作空间,对于人类来说是可解释的。换句话说,即使是未经训练的用户,在与 Genie 生成的游戏世界互动几次之后,也能自然理解并做出向左、向右或跳跃等常见动作,形成多样化的运动轨迹。
项目组也解释了Genie模型背后的三个关键组件:
•一个潜在动作模型(LAM),用于推断每对帧之间的潜在动作。
•一个视频分词器(Video tokenizer),具有时间感知能力,与OpenAI在Sora中的“patches”概念类似,能将原始视频压缩为离散令牌。
•一个动力学模型(Dynamics model),能够在给定潜在动作和过去帧令牌的条件下,预测视频下一帧。
整个运行过程如上图所示:将帧视频作为输入,通过视频分词器将它们转换成离散的令牌𝒛,并由潜在动作模型在每帧之间推断潜在动作𝒂。之后这两者都传递给动力学模型,以迭代方式生成下一帧的预测。
论文地址在这里,感兴趣的小伙伴可以自行查看:https://arxiv.org/abs/2402.15391
关于“世界模型”的较劲
在整个Genie的介绍中,“动作”成了出现频率最高的词汇。这也正是Google对于「世界模型」的理解。
这个近期被OpenAI的Sora点燃的课题曾引发一场业界大辩论。Meta首席科学家Yann LeCun就首当其冲质疑了Sora的技术路径。他认为,仅从语言提示生成看起来逼真的视频,并不意味着系统真正理解了物理世界,“内容生成”实则与世界模型中进行的因果预测非常不同。
Tim Rocktäschel此处转发表示赞同,先是肯定Sora 在视觉效果上确实令人印象深刻。接着表示“正如 LeCun所说,一个世界模型需要动作”,Genie 才是那个可以控制动作的世界模型。
曾表扬Sora是一个「数据驱动的物理引擎」,一个「可学习的模拟器或世界模型」的英伟达高级研究科学家Jim Fan,也再次开启夸夸模式:
“Tim 是我所知道的最有想象力的研究者之一,而 Genie 是他最具想象力的作品。不同于Sora,Genie 实际上是一个以推断合适动作为驱动的世界模型。
2024 年也将是基础世界模型的一年!”
怎么条条大路通AGI?
Google还进一步表示,“Genie有朝一日会成为训练多任务智能体的基础世界模型,是生成式虚拟世界的未来”。
以往许多成果已经表明,游戏环境可以作为开发AI Agent的有效试验场。虽然目前的Genie只是基于游戏数据训练的,但它是一种通用方法。不仅限于二维环境或应用程序,还适用于多种类型的数据和场景,而无需任何额外专业知识。
为证明这一点,团队专门拿一些没有动作标签的机器人视频训练了一个 25 亿参数的Genie模型。结果它不仅学会了机器人手臂的控制,还学会了各种物体的互动和薯片包这样可变形物体的物理属性。
由此看出,Genie能够从机器人视频数据创建一个动作模拟器。换句话说,就算它没有被明确教导那些动作是什么,也能够看视频学会复制和预测各种动作。
Genie团队认为,世界模型应该是一个能够理解和与环境交互的系统,这种交互不是预先编程的,也不限于特定任务。Genie的核心是利用未标记视频数据进行无监督学习,并创建「生成式互动环境」,正是为实现AGI而迈出的重要一步。
当然,Genie还没有发布日期,目前只是作为一个研究项目,是否会成为真正的产品也还不清楚。除此以外,Tim也开诚布公地说,“Genie运行速度是每秒 1 帧,因此现在距离实时可玩还有很远的距离。”难怪乎有网友形容,这看起来像个来自 80 年代的“马里奥GPT”。
不过多数人还是报以肯定,认为短期到中期它将革新生成式游戏,长期则有可能解锁训练更多领域的AI智能体。项目团队也非常振奋,DeepMind研究总监Edward Grefenstette激动感慨道:
“今天的 Genie 可能看起来只是像素块的跳跃和奔跑,但它实现了可控视频生成从 0 到 1 的巨大飞跃。几年以后,面对更逼真的可控视频生成,我们也许会把这看作是「威尔·史密斯吃意大利面」时刻。”
毕竟,“This is the worst it will ever be.”
在生成式AI竞赛中,亚马逊宣称其低成本云计算优势
亚马逊的云计算部门AmazonWebServices(AWS)正通过价格竞争来与竞争对手在人工智能领域取得优势。AWS副总裁DilipKumar表示,像ChatGPT这样的热门聊天机器人背后的人工智能模型需要大量的计算能力来训练和运行,而AWS在降低这些成本方面有很大的优势。与谷歌类似,亚马逊也拥有自家的AI芯片,这可能会带来额外的优势。站长网2023-07-13 07:12:160000三星举行S24发布会:Galaxy S24系列发布 国内尝鲜价5999元起
三星在今天的GalaxyUnpacked发布会上,正式推出了备受期待的新旗舰手机——GalaxyS24系列。该系列包括三种型号:GalaxyS24、GalaxyS24Plus和GalaxyS24Ultra,国内尝鲜价分别为5999元、7499元和10199元。站长网2024-01-18 08:40:380001投资超290亿、出货近30亿颗芯片!英特尔成都入选“投资中国”年度案例
快科技6月25日消息,根据英特尔官方公众号,英特尔产品(成都)有限公司凭借过去二十多年的持续投入、对进出口贸易的长期贡献等,成功入选央视财经投资中国”年度案例。作为英特尔全球最大的芯片封装测试中心之一,英特尔成都自2003年启动以来,总投资额已累计超过40亿美元(约合人民币290亿元),并成功出货近30亿颗芯片。英特尔表示,该中心不仅是英特尔中国战略的关键组成部分,也是公司全球布局的重要一环。0001谷歌 Colab 添加 AI 编码功能,包括代码生成和聊天机器人
AI自动编码将上线!GoogleColaboratory(Colab)将添加新的AI编码功能,包括代码生成、代码完成和编程聊天机器人。新功能将免费使用,并将得到能够与GPT-4竞争的PaLM2模型的支持。新功能将减轻重复编码任务的负担,让开发人员能够专注于更有价值的编程和数据科学任务。添加AI驱动的代码生成、完成和聊天机器人将使开发人员的机器学习开发更加方便。站长网2023-05-18 15:50:020000单场点赞破2亿、曹云金“相声直播”冲击线下剧场生态
“专业能力真的很厉害。直播从相声发展历史,马三立、马季、姜昆、冯巩等相声大师的特点、段子,娓娓道来,娴熟自如。非泛泛之辈能比。”“还是郭德纲最好的徒弟,云鹤九霄不如一曹。”凭借着“相声直播”,曹云金翻红了。在视频评论区,几乎全是对他专业能力的夸赞,对德云社其他人的“踩”,而昔日那段与师父郭德纲的恩怨,以及随之崩盘的人设和口碑,网络评论区刷屏的“孽徒”,也实现了反转。站长网2023-05-25 14:12:430000