大模型「上车」关键一步：全球首个语言+自动驾驶全栈开源数据集来了

站长网2023-09-04 09:27:360阅

说到科技圈的近期新闻，没有比小马和小扎约架这件事更热闹的八卦话题了。

前几天，马斯克直播了自己上门寻找扎克伯格的过程。虽然最终无功而返，但小马显然 “醉翁之意不在酒”，而是想借机展示特斯拉最新的 FSD V12自动驾驶功能。

可就在小马得意洋洋的向观众介绍时，自动驾驶系统却出了状况，在一个路口时作出了错误的判断，逼得小马手动干预了驾驶。小马尴尬地表示要 “给网络喂更多的相关数据”。

可见强如特斯拉的 FSD v12，也存在处理复杂场景时决策推理能力不足的问题。这让人不禁想问，有没有什么办法能解决这一难题?

上海人工智能实验室 OpenDriveLab 认为，要解决这一难题，引入时下大热的大模型可能是一个解决方案。

DriveLM | 动机

大模型已经在自然语言处理问题上证明了自己的威力。然而要想让它大显神威，海量数据必不可少。在自动驾驶领域，通过量产车大规模采集数据来支持自动驾驶系统的想法尚停留在建设阶段，各家车厂间的竞争也使得数据集的开源共享变得不切实际。

但如果换一个角度思考，大语言模型中的推理范式和常识在现实世界是通用的。如果能利用起现有的成熟大语言模型和海量语料数据库，再加上CoT（Chain of Thought）、GoT (Graph of Thougtht)等推理 Prompt 技术，站上巨人的肩膀，就可以让自动驾驶系统应对复杂状况的能力更上一层楼。

据此，上海人工智能实验室 OpenDriveLab、德国图宾根大学 Autonomous Vision Group、德国图宾根 AI Center 联合推出了世界首个语言自动驾驶全栈开源数据集——DriveLM，旨在借助大语言模型和海量自然语言数据集，构筑复杂场景下安全、精准、可解释的自动驾驶系统，突破现有自动驾驶推理能力上限。

同时，DriveLM 也是 OpenDriveLab 提出的 DriveAGI 的重要组成部分。OpenDriveLab 之后将围绕 DriveLM 举办一系列语言自动驾驶竞赛，以推动自然语言处理领域和自动驾驶领域的交流与技术交叉进步。

OpenDriveLab 提出的 DriveAGI 总体框架

不过今天，机器之心先带大家一起来看看这个融合语言信息的自动驾驶数据集是如何在大语言模型和自动驾驶系统之间搭建起桥梁，让大语言模型帮助自动驾驶系统获得更强大的、可解释的推理能力的。

Repository:https://github.com/OpenDriveLab/DriveLM

Page:https://opendrivelab.github.io/DriveLM

Hugging Face:https://huggingface.co/datasets/OpenDrive/DriveLM

DriveLM | 特点

结构化推理与思维图评测

DriveLM 提供了量化的推理能力评估标准，改变了模型的结构化推理（Structured-reasoning）或思维图(Graph of Thoughts)能力难以量化评估的现状。如下图所示，DriveLM 提供了从物体识别、物体运动状态判断到物体未来运动轨迹预测、自车运动规划的完整逻辑链条，确保了整个决策过程中每一步的合理性和可解释性。

全栈数据覆盖

DriveLM 的标注覆盖了自动驾驶系统中的感知（perception）、预测(prediction)、规划(planning)等模块，为整个自动驾驶系统提供了全栈式的语言标注数据。

假设推理

DriveLM 的标注中包含了基于假设进行推理的内容（"What if..."），这有助于训练模型对尚未发生的未来事件进行预判。

驾驶目标分解

DriveLM 提供了场景级别的全局驾驶目标描述和对应的帧级别的驾驶目标描述，引入了驾驶目标分解任务。通过将复杂的宏观驾驶任务分解为更具体、更简单的子任务，让自动驾驶系统学会应对更复杂多变的交通环境。

DriveLM | 数据与标注

DriveLM 标注中不同类别问题的分布情况

DriveLM 是一个基于 nuScenes 自动驾驶数据集构建的、以关键帧描述问答对（Description Q&A）为核心的数据集。

数据集中的问答对主要可以分为三类:感知（Perception）、预测(Prediction)和规划(Planning)。感知部分着重于询问物体相对自车的位置或运动状态;预测部分询问车辆或行人的未来可能行为和状态;规划部分询问自车可以采取的行动。

整个数据集分为训练集和验证集两部分，训练集共包含697个场景，验证集包含150个场景。每个场景包含大约40帧（采样频率约为2赫兹），标注员会在其中选择4-8个关键帧进行标注。

想要了解数据集的更多细节，请参考 OpenDriveLab 发布在 Github 上的 DriveLM 演示数据。

大模型上车 关键一步全球首个语言x2B自动驾驶全栈开源数据集来了

0000

评论列表

共(0)条

相关推荐

站长资讯
华为正式推出HarmonyOS NEXT测试版性能提升30%
站长之家（ChinaZ.com）6月21日消息:在今日的华为开发者大会2024上，华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东正式发布华为全新力作——鸿蒙OSNext。鸿蒙OSNext的推出，标志着华为在操作系统领域又迈出了坚实的一步。该系统采用了全新的系统架构，相较于前代，能够带来高达30%的性能提升。
站长网2024-06-22 23:22:00
0000
站长资讯
小米回应无法退定金问题：消费者主动锁单就不再退还
昨晚，备受瞩目的小米SU7正式上市开售，三个版本的新车售价区间定为21.59万元至29.99万元。据官方数据显示，新车销售势头强劲，上市仅4分钟便有大定订单突破万辆，7分钟后更是达到2万辆，而在短短的27分钟内，大定订单数量已突破惊人的5万辆。特别值得一提的是，限量发售的5000台创始版本车型，在预订开启的短短百秒内即被抢购一空，可见其受欢迎程度。
站长网2024-04-06 14:20:40
0000
站长资讯
虚拟摄像头应用xpression camera 可实时生成虚拟形象
xpressioncamera是一款获奖的虚拟摄像头应用程序，可以让用户使用单张照片即刻变身成任何有脸的角色，无需等待处理时间。这个应用允许用户在实时视频通话和直播过程中重新定义他们的屏幕形象，无论是在Zoom上聊天、Twitch上直播，还是制作YouTube视频。官网地址:https://xpressioncamera.com/产品亮点:
站长网2023-10-30 17:08:04
0000
站长资讯
贾跃亭发布会造了哪些新词？快来学学
时隔九年，贾老板的FF91终于发布了。在今天的FF91&FaradayFuture2.0终极发布会上，贾跃亭宣布FF91终极发布，并公布FF912.0FuturistAlliance售价为30.9万美元。据介绍，FF91延续了2017年原型车首次亮相时的设计，车头采用贯穿式LED灯组设计，但与原型车有一定细微区别，同时也将字母FF逆时针翻转45°。
站长网2023-06-01 15:54:55
0000
站长资讯
日本政府测试使用ChatGPT更新网站数据
前不久，OpenAICEOSamAltman会见日本首相岸田文雄，并就在日本测试使用ChatGPT一事进行讨论，以解决隐私和版权等关键问题。据了解，ChatGPT将帮助更新用于填写补贴和公共援助申请的在线手册。据说这涉及数千个网站，每年都需要对这些网站进行监管更改。现在，这项繁琐的任务将交给给OpenAI的聊天机器人。
站长网2023-04-20 09:44:59
0001