中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
要点:
由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。
Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。
Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。
该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。
论文地址:https://arxiv.org/pdf/2311.17918.pdf
此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。
Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
大模型托管平台Replicate获得2.9亿元B轮融资
**划重点:**1.💰Replicate成功完成由a16z领投的2.9亿元B轮融资,英伟达、YCombinator等跟投。2.🌐Replicate开源平台提供超过25,000个模型,涵盖文本、图片、视频、音频、3D模型等领域,注册用户超200万,付费用户超3万。0000Chinchilla之死:只要训练足够长时间,小模型也能超过大模型
2022年3月,DeepMind一篇论文《TrainingCompute-OptimalLargeLanguageModels》通过构建的Chinchilla模型得出了一个结论:大模型存在训练不足的缺陷,模型大小和训练token的数量应该以相等的比例扩展。也就是说模型越大,所使用的训练token也应该越多。站长网2023-10-03 09:49:190001亚马逊加入战局:推出大语言模型“泰坦”为客户提供便宜芯片
快科技4月14日消息,亚马逊服务部门(AWS)宣布,推出Bedrock生成式人工智能服务,以及自有的大型语言模型泰坦(Titan)。亚马逊的大语言模型被称为泰坦”,它接受了大量文本训练。亚马逊表示,最初会发布两个泰坦模型,一款用于生成文本,总结内容,撰写博客文章或参与开放式问答环节。另一款可能有助于网络搜索个性化。0000AI 图片橡皮擦来了!概念半透膜模型SPM实现精准擦除特定内容,还能改头换面
划重点:⭐清华大学与阿里合作推出概念半透膜模型,能够精准、可控地擦除各类具象或抽象概念。⭐该模型已被CVPR2024会议高分录用,具有在Diffusion架构的AI作图模型中擦除特定概念的能力。⭐模型通过一维Adapter和微调策略实现概念擦除,同时保留其他生成内容,并可动态适配擦除信号。站长网2024-03-13 14:52:460001Stability AI推出全面的API服务,引领图像处理新时代
近日,StabilityAI宣布推出一套全新的API服务,旨在提供更全面、更高效的图像处理服务。这一举措无疑将为图像处理领域带来一场革命。详细内容:https://stability.ai/news/image-services-on-stability-ai-developer-platform这套API服务包含以下几个主要功能:站长网2024-03-23 05:18:250000