首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
要点:
LEO是首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。
近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。
论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist
LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。
研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。
LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。
LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。
Google Slide 逐步开放 Duet AI 图像生成功能测试
上月初,GoogleWorkspace宣布将开始对Slides中的DuetAI图像生成功能进行公开测试,目前已得到更广泛的应用。站长网2023-07-05 19:09:130002原来“搜索”是这样用的,之前我们都用错了!
搜索平时我们用得最多,每天都会搜索各种各样的信息,但是很多人都没有正确使用搜索这个强大的功能,下面一起来分享一下正确使用搜索的方法。站长网2023-04-14 17:01:240003国货商战接近尾声,是时候总结一份《实操指南》了
没想到国货商战还有后续。这两天,因为花西子的“发疯式”公关,泼天的富贵终于轮到了文具届。9月26日,因为在博文中拿铅笔做类比,花西子遭到各大文具品牌的轮番阴阳。晨光在主播额头写上“不贵”,得力自称是个“6岁零216个月的本土娃娃”,将阴阳玩得坦坦荡荡。9月28日,#花西子得力##泼天的富贵要到文具届了#等话题登上微博热搜榜。借着这波热度,得力、晨光等文具品牌终于搭上国货商战的末班车。站长网2023-09-28 14:35:440000多人戴苹果表手腕被烫伤起泡 苹果客服回应:过敏反应
近日,社交媒体上出现了关于AppleWatch可能造成用户手腕烫伤的讨论。一名女子称自己在10月份戴着AppleWatch睡觉后,醒来发现手腕上出现了烫伤水泡。该女子向苹果客服反映了情况,并提供了相关照片。苹果客服初步回应称手表本身没有问题,并推测这可能是由于过敏反应所致,但问题至今未得到妥善处理。0000买它还是小米SU7!华为问界新款M7入门款降价2万
快科技4月1日消息,问界新M7入门款车型进行了调价,降价2万至22.98万元起。从一些网友查看的情况,问界新M7车型起售价22.98万元,直降2万元,具体调整包括:新M7Plus五座后驱版:原价24.98万元,现调整为22.98万元,科技舒享包取消赠送(价值15000元)。新M7Max五座后驱智驾版:原价28.98万元,现调整为27.98万元,科技舒享包依旧赠送。站长网2024-04-06 14:16:110001