中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
要点:
由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。
Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。
Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。
该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。
论文地址:https://arxiv.org/pdf/2311.17918.pdf
此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。
Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
大V都在跨圈,“卷”专业的汽车垂类账号还有机会吗?
在抖音,做专业的汽车内容还有出路吗?从去年开始,卡思数据就观测到众多汽车头部账号不约而同地开启了内容上的跨圈转型之路,比如我们熟知的@猴哥说车、@虎哥说车、@八戒说车等,都纷纷在自己的账号中加入了大量美食探店、生活vlog、和其他达人联动等与汽车相关性不大的内容。@猴哥说车@虎哥说车抖音视频截图“不务正业”的背后,透露着诸多“无奈”。站长网2023-07-05 09:17:300002微软推出用于生物医学的多模态 AI 助手
微软的研究人员展示了LLaVA-Med,这是一种用于生物医学的多模式AI助手,可以处理图像和文本。使用生物医学图像文本对应大型数据集来训练多模态AI模型。该数据集包括胸部X光、MRI、组织学、病理学和CT图像等。首先,该模型学习描述此类图像的内容以及重要的生物医学概念。然后,使用GPT-4生成的指令数据集对LLaVA-Med(生物医学的大型语言和视觉助手)进行训练。站长网2023-06-15 09:55:320001关于私域,腾讯做了一场大信息量的小直播
有种感觉,私域的增长飞轮比想象中大,启动这个飞轮的方法也比想象中多。6月6日(昨天)下午,见实详细听完腾讯的一场主题直播后,感受到这个判断正被不断强化。说大信息量,是因为这场累计吸引近5万人围观的直播,信息密度相当大。说小,是时长仅一小时多点,更像近期业务部门和业界的正常沟通之一。站长网2023-06-08 16:58:290000山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标
近半年来,随着OpenAI推出ChatGPT、GPT-4,彻底点燃AI赛道,也让GPT系列产品层出不穷,如AutoGPT、MiniGPT-4、Cerebras-GPT等等。站长网2023-04-25 16:35:330000Apple 为 SignChat 申请商标以提供手语服务
根据欧盟知识产权局周末公布的一份清单,苹果已经获得批准使用名为“SignChat”的新商标,苹果已经在其德国网站上申请了该商标。Apple的德国网站写道:“欢迎来到SignChat会议。使用SignChat服务获取购物建议和售后支持。站长网2023-05-29 10:50:500000