首个三维具身通才智能体LEO：全面掌握感知、推理、规划、行动

站长网2023-12-08 18:51:350阅

要点:

LEO是首个具身通才智能体，以GPT-4等大语言模型为基础，实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。

该研究填补了多模态大语言模型在三维世界任务上的空白，通过高效学习策略和数据生成方法，构建了一个能够在真实场景中应用的通才智能体。

LEO在三维场景问答、物体描述、具身推理等任务上表现优异，具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。

近年来，多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而，这些模型主要基于二维图片和文本数据，对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题，北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员，提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

论文链接:https://arxiv.org/abs/2311.12871

项目主页:https://embodied-generalist.github.io/

代码链接:https://github.com/embodied-generalist/embodied-generalist

LEO的核心设计思想是以大语言模型为基础，在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重，LEO能够在不同任务之间实现无缝切换，构建了一个统一的处理框架。在数据集的收集方面，研究团队通过两阶段训练策略，包括物体级别和场景级别的大规模数据集，为LEO的训练提供了坚实基础。

研究的主要贡献体现在三个方面:首先，构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次，提出了高效的学习策略，通过将以物体为中心的三维表征与语言模型相结合，成功打通了视觉-语言-动作的通道。最后，研发了生成高质量三维视觉语言数据的方法，构建了大规模的视觉-语言-动作指令微调数据集。

LEO的应用前景广泛，作为未来的家庭助理，它能够与人进行交互，调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面，LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运，展现出巨大的应用价值。

LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破，为实现通用人工智能迈出了重要一步。

首个三维具身通才智能体LEO全面掌握感知推理规划行动

0000

评论列表

共(0)条

相关推荐

站长资讯
这，就是大模型时代的生产力
文心与飞桨，向我们展示了领先大模型的生产力。大模型应用卷到了什么地步?几天前，我们看到的还是写文章、画图、回答数学问题，现在已经有人这么用了:如果把一长段对话转发到别的群聊里，AI可以自动生成总结。拿到数据后，直接进行有理有据还配图的分析。从市场分析、品牌构建、到输出视频广告，全部流程只需和AI进行简单对话就能完成。
站长网2023-08-17 09:22:51
0000
为啥老大哥们喜欢去KTV搞业务
前几天杭州突然降温，一下从穿短袖到穿棉袄，还有点不适应。每次天一冷下来，就有种快要过年的感觉，人的积极性也会降低不少。记得以前做电商上下游行业的时候，一旦过了双十一，大家基本上就开始等明年了，双十二基本也就意思下。大家该出去玩出去玩，该见朋友的见朋友，该复盘复盘，该换车的换车。不过今年情况有点特殊，各行各业的热度基本都在下降，就连双十一这个节日相比过去也变得有些平淡。
站长网站长资讯2023-11-20 09:40:41
0000
站长资讯
一用户网购手机激活后要求七天无理由退货法院：可退店铺告知存在瑕疵
据山东高法公众号消息，近日，青岛市崂山区人民法院审理一起网购纠纷案件。张某通过A公司运营网购平台中的B店铺购得手机一部。签收手机当日，张某连接互联网并激活了手机，下载安装了其平时工作所需的一款软件，安装后发现该软件出现闪退现象，无法正常使用。张某遂联系B店铺客服人员协商退货，客服人员表示，因手机已被激活即为二手机，除质量问题外，不能退货。张某交涉未果，将A公司、B店铺诉至法院，要求退款。
站长网2023-11-14 11:53:22
0000
站长资讯
马斯克旗下社交媒体平台 X 再次遭遇全球性宕机持续时间超一个小时
划重点:-🚫用户反馈显示，埃隆・马斯克旗下社交媒体平台X（前身为Twitter）在全球范围内发生了一次宕机，持续时间超过一个小时。-📉这次宕机导致用户无法查看推文，而XPro（前身为TweetDeck）也受到了影响。-🔧X平台此前曾经历过一次大规模宕机，而此次宕机的具体原因尚不清楚。
站长网2023-12-21 17:23:07
0002
站长资讯
卢伟冰宣布小米全球首发！高通第三代骁龙8s移动平台发布
快科技3月18日消息，高通宣布推出第三代骁龙8s移动平台，为更多Android旗舰智能手机带来骁龙8系平台上最广受欢迎的特性，实现非凡的顶级移动体验。在发布会上，小米集团卢伟冰宣布，我们很高兴能与高通技术公司合作，推出首款搭载第三代骁龙8s的终端，这款全新移动平台让我们能够利用生成式AI为用户提供顶级的个性化体验。
站长网2024-03-18 22:58:26
0000