首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
要点:
LEO是首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。
近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。
论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist
LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。
研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。
LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。
LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。
立方数科推出AI模型训练平台立方PAI
近日,由立方数科自主研发的立方云PAI经国家版权局审核,符合《计算机软件保护条例》和《计算机软件著作权登记办法》的相关规定,认定为原始取得,成功获得《计算机软件著作权登记证书》。立方PAI提供完整的人工智能模型训练和资源管理能力平台,易于扩展,支持各种规模的on-premise、on-cloud和混合环境,并且提供诸多AI用户友好功能,使最终用户和管理员更容易完成日常的AI任务。站长网2023-07-15 01:59:0000014999元起!小米14系列发布小米汽车SU7限量定制色
在今日的小米新品发布会上,雷军为我们带来了小米14系列的限量定制色。此次小米14系列采用了与小米汽车SU7同宗同源的海湾蓝和橄榄绿配色,展现出小米对于时尚与科技的完美结合。与前代产品相比,小米14系列在色彩上进行了大胆的创新,与小米汽车的风格相得益彰。这种独特的配色方案不仅提升了产品的视觉吸引力,也使其在市场上独树一帜。0000百度:2023年Q1共清理各类有害信息154.9亿余条
近日,百度对外公布2023年第一季度信息安全综合治理数据。百度内容安全中心在该周期内共计清理各类有害信息154.9亿余条。其中,通过人工智能技术挖掘并打击以淫秽色情类、赌博类等为主的相关有害信息共154.7亿余条,通过人工巡查的方式打击以淫秽色情类、侵权类等为主的相关有害信息共计2179.5万余条。站长网2023-07-05 18:20:170000Redmi K70系列本月发布:标准版搭载骁龙8 Gen2 Pro版8Gen3
根据博主数码闲聊站的透露,RedmiK70标准版将搭载高通骁龙8Gen2芯片,而K70Pro则将搭载高通骁龙8Gen3芯片。这一策略与去年年底发布的K60系列相似,即标准版使用上一代骁龙平台,而Pro版则搭载最新平台。站长网2023-11-07 10:02:330000第一批刷屏全网“成人小饭桌”,已经倒闭了
年轻人的生活中,“刺客”层出不穷。这些消费“刺客”就和小说中的“刺客”一样,外表平平无奇,却能在不经意间给人来上“狠狠一刀”。小说中的“刺客”伤人,消费“刺客”伤害的却是打工人的钱包。去年被讨论的是雪糕刺客,平平无奇的包装下是动辄超过20元的价格,让无数人大呼“已经吃不起雪糕了”。今年,餐饮“刺客”刀刀刺向年轻人的钱包,“只有发工资那天敢吃麻辣烫”“月薪两万吃不起老乡鸡”等话题频上热搜。站长网2023-07-26 12:08:160000