大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了
说到科技圈的近期新闻,没有比小马和小扎约架这件事更热闹的八卦话题了。
前几天,马斯克直播了自己上门寻找扎克伯格的过程。虽然最终无功而返,但小马显然 “醉翁之意不在酒”,而是想借机展示特斯拉最新的 FSD V12自动驾驶功能。
可就在小马得意洋洋的向观众介绍时,自动驾驶系统却出了状况,在一个路口时作出了错误的判断,逼得小马手动干预了驾驶。小马尴尬地表示要 “给网络喂更多的相关数据”。
可见强如特斯拉的 FSD v12,也存在处理复杂场景时决策推理能力不足的问题。这让人不禁想问,有没有什么办法能解决这一难题?
上海人工智能实验室 OpenDriveLab 认为,要解决这一难题,引入时下大热的大模型可能是一个解决方案。
DriveLM | 动机
大模型已经在自然语言处理问题上证明了自己的威力。然而要想让它大显神威,海量数据必不可少。在自动驾驶领域,通过量产车大规模采集数据来支持自动驾驶系统的想法尚停留在建设阶段,各家车厂间的竞争也使得数据集的开源共享变得不切实际。
但如果换一个角度思考,大语言模型中的推理范式和常识在现实世界是通用的。如果能利用起现有的成熟大语言模型和海量语料数据库,再加上CoT(Chain of Thought)、GoT (Graph of Thougtht)等推理 Prompt 技术,站上巨人的肩膀,就可以让自动驾驶系统应对复杂状况的能力更上一层楼。
据此,上海人工智能实验室 OpenDriveLab、德国图宾根大学 Autonomous Vision Group、德国图宾根 AI Center 联合推出了世界首个语言 自动驾驶全栈开源数据集——DriveLM,旨在借助大语言模型和海量自然语言数据集,构筑复杂场景下安全、精准、可解释的自动驾驶系统,突破现有自动驾驶推理能力上限。
同时,DriveLM 也是 OpenDriveLab 提出的 DriveAGI 的重要组成部分。OpenDriveLab 之后将围绕 DriveLM 举办一系列语言 自动驾驶竞赛,以推动自然语言处理领域和自动驾驶领域的交流与技术交叉进步。
OpenDriveLab 提出的 DriveAGI 总体框架
不过今天,机器之心先带大家一起来看看这个融合语言信息的自动驾驶数据集是如何在大语言模型和自动驾驶系统之间搭建起桥梁,让大语言模型帮助自动驾驶系统获得更强大的、可解释的推理能力的。
Repository:https://github.com/OpenDriveLab/DriveLM
Page:https://opendrivelab.github.io/DriveLM
Hugging Face:https://huggingface.co/datasets/OpenDrive/DriveLM
DriveLM | 特点
结构化推理与思维图评测
DriveLM 提供了量化的推理能力评估标准,改变了模型的结构化推理(Structured-reasoning)或思维图(Graph of Thoughts)能力难以量化评估的现状。如下图所示,DriveLM 提供了从物体识别、物体运动状态判断到物体未来运动轨迹预测、自车运动规划的完整逻辑链条,确保了整个决策过程中每一步的合理性和可解释性。
全栈数据覆盖
DriveLM 的标注覆盖了自动驾驶系统中的感知(perception)、预测(prediction)、规划(planning)等模块,为整个自动驾驶系统提供了全栈式的语言标注数据。
假设推理
DriveLM 的标注中包含了基于假设进行推理的内容("What if..."),这有助于训练模型对尚未发生的未来事件进行预判。
驾驶目标分解
DriveLM 提供了场景级别的全局驾驶目标描述和对应的帧级别的驾驶目标描述,引入了驾驶目标分解任务。通过将复杂的宏观驾驶任务分解为更具体、更简单的子任务,让自动驾驶系统学会应对更复杂多变的交通环境。
DriveLM | 数据与标注
DriveLM 标注中不同类别问题的分布情况
DriveLM 是一个基于 nuScenes 自动驾驶数据集构建的、以关键帧描述 问答对(Description Q&A)为核心的数据集。
数据集中的问答对主要可以分为三类:感知(Perception)、预测(Prediction)和规划(Planning)。感知部分着重于询问物体相对自车的位置或运动状态;预测部分询问车辆或行人的未来可能行为和状态;规划部分询问自车可以采取的行动。
整个数据集分为训练集和验证集两部分,训练集共包含697个场景,验证集包含150个场景。每个场景包含大约40帧(采样频率约为2赫兹),标注员会在其中选择4-8个关键帧进行标注。
想要了解数据集的更多细节,请参考 OpenDriveLab 发布在 Github 上的 DriveLM 演示数据。
苹果将举办发布会 M3芯片24英寸iMac或将亮相
今天凌晨,苹果宣布将于10月31日举行新品发布会,主题为“来势迅猛”。与以往在半夜举行发布会不同,这次发布会定在北京时间早上08:00,更加方便上班族观看。据此前爆料,苹果预计将在发布会上推出全新M3芯片和新款iMac。其中,M3芯片将成为苹果第二款采用3nm工艺的芯片,具备更好的性能和能效。M3芯片的规格预计与M2芯片相似,最多拥有8核CPU和10核GPU,总计18个核心。站长网2023-10-25 09:17:190000百度百家号“创作人”认证上线 可获得更多广告收入
百度旗下百家号宣布上线『创作人』认证。『创作人』是百家号作者通过认证方式,展示自己原创能力,从而获得更高的广告收入和更好的创作权益。平台要求『创作人』所发布的图文、短视频、小视频内容均由作者本人创作且享有发表权,或拥有作品内所有呈现出来内容的相关版权;据悉,用户可在“百家号PC-我的权益”中找到创作人卡片申请入口,点击去申请即可。站长网2023-07-20 11:07:560000百度网盘智能助理上线“云一朵” 用户已达 2000 万
在百度世界2023大会上,官方宣布百度网盘智能助理上线“云一朵”,实现语音搜索即可获取相关所需视频分类、智能提取视频语音转文字。据百度介绍,其个人云智能助理“云一朵”,实现从图形界面交互到自然语言交互的转变,增强了多模态信息理解,能对视频精准定位、一键总结视频内容、提炼金句,技术全球领先。目前,百度网盘云一朵用户已达到2000万。站长网2023-10-18 21:12:480000Sora火了,抖音们慌了?
Sora有多火?马斯克、杨立昆、贾扬清、JimFan、谢赛宁等各路大佬都在讨论,周鸿祎更是喊出,Sora的诞生意味着AGI(通用人工智能)的实现或从十年缩短至一两年。不少“普通人”也提前嗅到商机,围绕Sora搞钱的生意先火了。有媒体报道,一张网传截图显示,某机构已售出2万多份Sora培训课程,轻松到手200万。0000高考作文人工智能上热搜:AI时代 人们的问题是否会越来越少?
站长之家(ChinaZ.com)6月7日消息:随着2024年高考语文科目的落幕,考生们的心头重担暂时放下,而网络上对于今年高考作文题目的热议却如潮水般汹涌。今年,高考作文题目依旧牵动着亿万网友的心,各地试题纷纷亮相,其中,新课标I卷的作文题尤为引人注目,它首次将人工智能作为核心议题。题目如下:阅读下面的材料,根据要求写作。(60分)站长网2024-06-08 05:41:260000