机器人ChatGPT时刻!英伟达开源世界大模型,完美模拟物理世界!
全球AI领导者NVIDIA(英伟达)在2025年CES展会上,开源了全新世界大模型NVIDIA Cosmos。
Cosmos能从数据整合、训练再到定制各个开发阶段的,大规模模拟、构建物理世界的基础模型,同时支持自定义微调。
例如,你想开发一个实体仓储机器人,但没有真实大型仓储环境为机器人提供货物搬运、拣选、分拣等训练环境,通过Cosmos就能轻松创建一个模拟的物理仓储环境,来训练、观察、优化机器人各种动作。
在自动驾驶领域,想观察汽车在大雨、暴雪、地震等超恶劣环境中的表现同样很难,而Cosmos可以轻松模拟这些环境,帮助开发者深度优化智能汽车的开发流程。
NVIDIA创始人兼首席执行官黄仁勋在演讲中表示,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车的发展至关重要,但并非所有开发者都具备训练自己模型的专业知识和资源。
所以,NVIDIA开发了Cosmos,让物理AI大众化,帮助每个开发者都能轻松开发通用实体机器人技术。”
开源地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
API:https://build.nvidia.com/explore/simulation
Cosmos架构介绍
Cosmos使用了基于Transformer的自回归和扩散双架构模型:自回归模型专为视频生成设计,基于输入文本和过去的视频帧预测下一个token。使用了Transformer解码器架并进行了关键修改用于世界模型开发。
3D RoPE(旋转位置嵌入)分别对空间和时间维度进行编码,确保精确的视频序列表示。交叉注意力层使文本输入为世界生成提供了更好的控制。QK归一化增强了训练稳定性。该模型的预训练是逐步进行的,从单个输入帧预测多达17个未来帧开始,然后扩展到34帧,最终达到121帧(或50000个token)。
扩散模型因其能够解构训练数据并根据用户输入重建它,从而产生高质量、逼真的输出而广受欢迎,用于生成图像、视频和音频。
Cosmos的扩散模型分为正向扩散和反向扩散两个阶段:在正向扩散过程中,训练数据通过逐步添加高斯噪声而逐渐被破坏,有效地将其转化为纯噪声。
在反向扩散过程中,模型学习逐步逆转这种噪声,通过去噪被破坏的输入来恢复原始数据。一旦训练完成,扩散模型通过采样随机高斯噪声并将其通过学习到的去噪过程来生成新数据。
此外,Cosmos扩散模型还有一些关键更新,专门针对物理AI开发。3D Patchification将视频处理成较小的块,简化了时空序列表示。混合位置嵌入处理空间和时间维度,支持具有不同分辨率和帧率的视频。交叉注意力层结合文本输入,使视频生成能够根据描述更好地控制。LoRA的自适应层归一化将模型大小减少了36%,在更少的资源下保持了高性能。
训练数据方面,Cosmos使用了9000万亿token的数据,包括自动驾驶、机器人、合成环境和其他相关领域的2000万小时数据。能够创建非常逼真的合成视频环境和互动,这为训练复杂机器人、自动化驾驶提供重要基础。
Cosmos共有Nano、Super和Ultra三种型号:Nano针对实时、低延迟推理和边缘部署进行了优化;Super作为性能基线模型设计;Ultra专注于最大质量和保真度,是蒸馏定制模型的理想选择。
为了提升Cosmos的安全性,提供了预防护和后防护两种安全机制。预防护主要基于文本提示的安全措施,使用两层:关键词屏蔽,一个屏蔽列表检查器扫描提示中的不安全关键词,使用词形还原来检测变体,并屏蔽非英语术语或拼写错误。Aegis安全防护,NVIDIA微调的Aegis AI内容安全模型检测并屏蔽语义上不安全的提示,包括暴力、骚扰和粗俗等类别。
后防护阶段通过以下方式确保生成视频的安全性:视频内容安全分类器,一个多类分类器评估每个视频帧的安全性。如果任何帧被标记为不安全,则整个视频将被拒绝。面部模糊过滤器,使用RetinaFace模型模糊生成视频中的所有人脸,以保护隐私并减少基于年龄、性别或种族的偏见。
Cosmos实际应用案例
根据NVIDIA在官网的展示,目前很多世界知名的实体机器人、智能汽车开发商已经在使用Cosmos加速物理开发效率。
著名人形机器人开发公司1X使用 Cosmos,推出了1X世界模型挑战数据集。国内的小鹏汽车将使用Cosmos 加速其人形机器人的开发。Hillbot 和 Skild AI 正在使用 Cosmos 快速推进其通用机器人的开发流程。
Waabi,一家从自动驾驶汽车开始开创物理世界生成式AI的公司,正在评估 Cosmos 在自动驾驶汽车软件开发和模拟的数据整理方面的应用。
Wayve在开发自动驾驶的AI基础模型,正在评估Cosmos作为搜索用于安全和验证的边缘和角落驾驶场景的工具。自动驾驶工具链提供商Foretellix将使用Cosmos,结合NVIDIA Omniverse Sensor RTX API,以规模评估和生成高保真测试场景和训练数据。
全球网约车巨头Uber正在与NVIDIA合作加速自动驾驶移动性。Uber的丰富驾驶数据集,结合Cosmos平台和NVIDIA DGX Cloud™的功能,可以帮助自动驾驶合作伙伴更高效地构建更强大的AI模型。
Uber首席执行官Dara Khosrowshahi表示,“生成式AI将推动移动性的未来,这需要丰富的数据和非常强大的计算能力。通过与NVIDIA合作,我们有信心可以帮助加速安全和可扩展的自动驾驶解决方案。
AI原生3D创作平台Mootion 提供丰富创作场景
Mootion是一款致力于激发用户自然创造力的AI原生3D创作平台。通过先进的人工智能技术,用户可以在虚拟空间中快速生成各种创意的3D场景和动画效果,无需专业的设计技能。体验地址:https://www.mootion.com/landing该平台提供了丰富多样的创作场景,包括舞蹈空间、奇幻森林以及真实的工作室灯光等,让用户可以根据自身需求选择合适的场景进行创作。站长网2023-11-10 18:08:200000美团发布2023年第三季度财报:营收765亿元 同比增长22.1%
美团今日发布了2023年第三季度财报:营收达到765亿元,同比增长22.1%。净利润为35.93亿元,同比增长195.3%。调整后净利润为57.27亿元,同比增长62.4%。据财报显示,美团的核心本地商业收入同比增长24.5%,达到577亿元。新业务分部的收入同比增长15.3%,达到188亿元。截至2023年9月30日,美团持有的现金及现金等价物和短期理财投资分别为251亿元和1085亿元。站长网2023-11-28 18:19:420000WordPress 宣布组建 AI 团队
WordPress于周二宣布,已组建一个AI团队,负责引导其开发者社区中AI产品的发展。该团队成员包括WordPress母公司Automattic的AI负责人JamesLePage,来自谷歌的FelixArntz和PascalBirchler,以及网页设计公司10up的开源主管JeffPaul。站长网2025-05-28 17:10:020000阿里巴巴国际站推出AI生意助手 11月1日面向所有外贸商家开放
阿里巴巴国际站近日上线了一款全新的AI工具——生意助手SmartAssistant,这款工具旨在通过AI技术,帮助外贸商家提高运营效率、提升转化率和寻找商机。生意助手SmartAssistant具有以下特点:依托阿里巴巴国际站24年的数字外贸实践和全球生意分析经验,“生意助手”具备了专业垂直语料库的训练,能够为外贸商家提供更优的解决方案。站长网2023-10-26 08:42:490008霸王茶姬回应小程序拥堵:用户仍有免单机会
霸王茶姬在今日下午针对其小程序出现拥堵、无法访问等问题作出回应。由于同时在线人数超过了服务器的最大承载量,导致系统出现拥堵现象,给用户带来不便,霸王茶姬对此表示歉意。为了弥补用户的不便,霸王茶姬表示,只要在今天下午13:07后正常提交订单并支付成功的前60000份订单,均可获得免单机会(每位ID限一单)。用户下单ID绑定的手机号将在2小时内收到相关短信信息。站长网2023-11-23 15:42:030000