首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
要点:
LEO是首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。
近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。

论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist
LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。
研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。
LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。
LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。
这,就是大模型时代的生产力
文心与飞桨,向我们展示了领先大模型的生产力。大模型应用卷到了什么地步?几天前,我们看到的还是写文章、画图、回答数学问题,现在已经有人这么用了:如果把一长段对话转发到别的群聊里,AI可以自动生成总结。拿到数据后,直接进行有理有据还配图的分析。从市场分析、品牌构建、到输出视频广告,全部流程只需和AI进行简单对话就能完成。站长网2023-08-17 09:22:510000为啥老大哥们喜欢去KTV搞业务
前几天杭州突然降温,一下从穿短袖到穿棉袄,还有点不适应。每次天一冷下来,就有种快要过年的感觉,人的积极性也会降低不少。记得以前做电商上下游行业的时候,一旦过了双十一,大家基本上就开始等明年了,双十二基本也就意思下。大家该出去玩出去玩,该见朋友的见朋友,该复盘复盘,该换车的换车。不过今年情况有点特殊,各行各业的热度基本都在下降,就连双十一这个节日相比过去也变得有些平淡。0000一用户网购手机激活后要求七天无理由退货 法院:可退 店铺告知存在瑕疵
据山东高法公众号消息,近日,青岛市崂山区人民法院审理一起网购纠纷案件。张某通过A公司运营网购平台中的B店铺购得手机一部。签收手机当日,张某连接互联网并激活了手机,下载安装了其平时工作所需的一款软件,安装后发现该软件出现闪退现象,无法正常使用。张某遂联系B店铺客服人员协商退货,客服人员表示,因手机已被激活即为二手机,除质量问题外,不能退货。张某交涉未果,将A公司、B店铺诉至法院,要求退款。站长网2023-11-14 11:53:220000马斯克旗下社交媒体平台 X 再次遭遇全球性宕机 持续时间超一个小时
划重点:-🚫用户反馈显示,埃隆・马斯克旗下社交媒体平台X(前身为Twitter)在全球范围内发生了一次宕机,持续时间超过一个小时。-📉这次宕机导致用户无法查看推文,而XPro(前身为TweetDeck)也受到了影响。-🔧X平台此前曾经历过一次大规模宕机,而此次宕机的具体原因尚不清楚。站长网2023-12-21 17:23:070002卢伟冰宣布小米全球首发!高通第三代骁龙8s移动平台发布
快科技3月18日消息,高通宣布推出第三代骁龙8s移动平台,为更多Android旗舰智能手机带来骁龙8系平台上最广受欢迎的特性,实现非凡的顶级移动体验。在发布会上,小米集团卢伟冰宣布,我们很高兴能与高通技术公司合作,推出首款搭载第三代骁龙8s的终端,这款全新移动平台让我们能够利用生成式AI为用户提供顶级的个性化体验。站长网2024-03-18 22:58:260000