Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶
文章概要:
- Wayve是一家英国初创公司,于2023年6月发布GAIA-1,一款用于自动驾驶车辆训练数据的生成式人工智能模型。
- GAIA-1使用文本、图像、视频和行动数据创建各种交通情景的合成视频,填补了道路交通复杂性所产生的数据空白。
- 这一世界模型可以预测未来事件,帮助自动驾驶车辆提前规划行动,增加道路安全和效率。
英国初创公司Wayve在2023年6月发布了GAIA-1(Generative Artificial Intelligence for Autonomy),这是一款为自动驾驶车辆培训数据而设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。
GAIA-1的独特之处在于它的能力,它能够使用文本、图像、视频和行动数据来生成各种交通情景的合成视频。这一能力填补了自动驾驶车辆训练中的数据缺口。
试想一下,在雾中,有一个行人从卡车后面跳出来,同时一名摩托车手即将超越你,一名自行车手从前方靠近。这是一个真实的情景,但要捕捉到这个精确的场景,你需要开多少英里的车并进行拍摄呢?GAIA-1回答了这个问题,它可以生成各种交通情景的合成视频,用于自动驾驶车辆的培训。
与传统的生成式视频模型不同,Wayve表示,GAIA-1是一种生成式“世界模型”,它学会了理解和解读驾驶的最重要概念。它能够识别和分离不同的车辆及其特征、道路、建筑物或交通信号灯等概念。GAIA-1还学会了代表环境及其未来动态,为驾驶提供了结构化的环境理解,可用于做出明智的驾驶决策。
自GAIA-1首次发布以来,Wayve团队对其进行了优化,以高效生成高分辨率视频,并通过大规模培训提高了世界模型的质量。该模型现在拥有90亿个参数(相对于六月版本的10亿个参数),还能够精确控制视频中的车辆行为和场景特征。这使其成为培训和验证自动驾驶系统的强大工具。
GAIA-1的模型基于在2019年至2023年间在英国伦敦收集的4700小时专有驾驶数据。模型的架构包括每个输入模态(视频、文本和行动)的专用编码器、世界模型、自回归变换器和视频解码器,以及将预测的图像元素转换回像素空间的视频扩散模型。
值得注意的是,GAIA-1的世界建模任务与大型语言模型(LLMs)常用的方法非常相似,其中任务被简化为预测下一个标记。在GAIA-1中,这一方法应用于视频建模,而不是语言。这表明随着模型大小和培训数据集的增加,GAIA-1在视频生成方面的性能和效率将继续提高,类似于大型语言模型在其各自领域内观察到的缩放模式。开发人员表示,随着更多的数据和处理能力,仍然存在“显著的改进空间”。
此外,GAIA-1还可以预测过去的上下文视频图像的不同未来情景,包括行人、自行车手、摩托车手和对向交通的行为,从而使模型能够考虑与其他道路使用者的互动并对情况做出反应。GAIA-1还可以通过纯文本输入进行控制,例如,通过文本命令“天气是晴朗的”、“多雨的”、“有雾的”或“多雪的”来生成不同的驾驶情景。此外,它还可以使用文本命令,如“现在是白天,我们处于直射阳光下”、“天空是灰色的”、“现在是黄昏”和“现在是夜晚”,来创建不同的照明情景。
然而,Wayve也指出了GAIA-1的一些局限性。虽然自回归生成过程非常有效,但需要大量计算,因此生成长时间的视频会非常计算密集。此外,当前模型主要集中于预测单一摄像机输出,而自动驾驶需要来自所有周围视点的全面视图,这是关键问题之一。
未来的工作将扩展该模型的能力,以捕捉更广泛的视角,并优化其生成效率,使该技术更具适用性和效率。此外,Wayve还在开发Lingo-1,这是一种自动驾驶系统,将机器视觉与基于文本的逻辑相结合,以解释道路上的决策和情况。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。
GAIA-1项目网址:https://wayve.ai/thinking/scaling-gaia-1/
盘点近几年的互联网宕机事件,都是啥原因?
“滴滴滴滴滴滴等待”,从昨天晚上到今天中午,滴滴崩了难住了不少打工人。这次宕机持续近12个小时,算是滴滴近年来瘫痪时间最长的一次故障。滴滴2023年第三季度财报显示,单季度中国出行业务总交易额为725亿元,日均单量达到3130万单。据此,有媒体估计将会让滴滴损失过千万的订单量和超4亿的交易额。而除了滴滴外,阿里云在不到10天的时间里也出现了两次故障。站长网2023-11-29 18:12:050000情绪价值还能这么用?5人团队在社群年收千万!
这个团队在私域做闺友社区,仅5人5年累计服务了4万高端用户,其中有部分用户1年消费能达10万元。整个项目从产品本身到服务方式都具有强情绪价值属性,团队特别注重给予用户陪伴和关注。甚至创始人和学员一起,在免费的学习社群内连续打卡了近3年。回头看“情绪价值”,从最初2023年的“多巴胺穿搭”出圈,到被各路媒体、博主反复作为创作主题进行大范围传播,以致于“情绪价值”成为当年最受热议的关键词之一。站长网2024-06-17 11:41:460002董宇辉与辉同行独立后五天销售额破亿
东方甄选在7月25日宣布"与辉同行"品牌独立运营后,短短五天时间,该品牌的销售额已经达到了1亿元人民币的里程碑。根据之前的报道,7月25日,东方甄选在港交所发布了一则公告,宣布董宇辉(买方)、北京新东方迅程网络科技有限公司(卖方)以及与辉同行(北京)科技有限公司(目标公司)签署了股权转让协议。站长网2024-08-01 10:39:040000A16Z发布:下一代皮克斯,AI 会如何融合电影和游戏?
故事是人类体验的核心——我们通过故事来理解世界、找到意义并与他人建立联系。在过去的一个世纪里,我们最喜爱的许多故事都是通过技术变革实现的。20世纪30年代,迪士尼发明了多平面摄像机,并率先制作了声音同步的全彩动画片——最终催生了开创性的动画电影《白雪公主和七个小矮人》。站长网2024-08-31 16:49:380000谷歌人工智能鉴定美国登月照片系合成造假 俄罗斯表示有趣
快科技11月25日消息,据国外媒体报道称,谷歌人工智能鉴定美国登月照片系合成造假,这引起了网友围观。在莫斯科举行的人工智能世界之旅”国际会展上,美国谷歌公司的人工智能对一张美国登月的任务照片进行数据分析,用红色标注出该人工智能认为可能造假的部分。最后这张照片几乎每个部分都被标注上鲜艳的红色,这表示美国谷歌的人工智能分析认为:这张美国登月的任务照片是造假合成的。0000