北大新成果:无需训练,机器人听指令就能灵活走位
要点:
1. 北大研究团队开发了一种具身导航系统,使机器人可以根据口头指令在室内环境中移动,无需额外训练或建图。
2. 这一系统涉及多个关键任务,包括指令分析、视觉感知、完成估计和决策测试,由大模型专家团队协同完成。
3. DiscussNav系统通过与大模型专家互动,使机器人能够根据人类指令移动,解决了机器人导航训练数据稀缺的问题,同时具备零样本能力,能够执行多样的导航指令。
北大的研究团队近期推出了一项具身导航系统,可使机器人无需额外训练或建图,仅通过口头指令在室内环境中自如移动。这一系统包括指令分析、视觉感知、完成估计和决策测试等多个关键任务,需要不同领域的知识,这些任务由一个大模型专家团队协同完成。
作者启发于现实中专家讨论行为,设计了DiscussNav导航系统,通过赋予大语言模型(LLM)和多模态大模型(MLM)专家角色和任务,构建了具备不同专长的视觉导航专家团队。
论文地址:https://arxiv.org/pdf/2309.11382.pdf
在这一系统中,导航机器人会在每一步移动前主动与专家讨论,以理解人类指令中所需的动作和提及的物体标志。然后,它会根据这些物体标志类型倾向性地感知周围环境,估计指令的完成情况,并做出初步的移动决策。
值得注意的是,在决策过程中,机器人会同时生成多个独立的预测结果,并在这些结果之间出现不一致时,向决策测试专家求助,以筛选出最终的移动决策。这一方法不同于传统方法,无需额外预训练,通过与大模型专家的互动,直接解决了机器人导航训练数据稀缺的问题,并具备零样本能力。
DiscussNav系统在经典的视觉语言导航数据集Room2Room上的表现显著超越了所有零样本方法,甚至胜过了经过训练的方法。
研究团队还在Turtlebot4移动机器人上进行了真实室内场景导航实验,结果表明,该系统在真实世界中的表现明显优于之前最优的零样本方法和经过预训练微调的方法,展现出良好的从模拟环境到真实环境的迁移能力。
作者指出,这一系统具备四个强大的能力,包括识别开放世界物体、识别细粒度的导航标志物体、纠正其他专家在讨论中的错误信息,以及排除不一致的移动决策。
此外,作者还提出,深入研究如何有效利用仿真数据和大模型从海量数据中学到的先验知识是未来具身智能研究的发展方向。尽管受到数据规模和真实环境探索成本的限制,但大模型的进展为具身智能提供了新方向,将推动其发展。
在总体上,北大的DiscussNav系统代表了具身导航领域的一项重要突破,使机器人能够根据口头指令自如导航,同时具备零样本能力,这对未来的智能机器人和自动化应用具有重要意义。
你在直播间买的书可能是假的,已有卖家被抓,涉案金额三千多万
电商平台上的正版畅销书竟是盗版卖书直播间里“挂羊头卖狗肉”的情况还真不少。随着短视频与直播平台的崛起,这些新兴渠道本应是传播知识、促进阅读的新舞台,却不料成为了盗版书商泛滥的温床。这些盗版书商打着正版之名低价卖书,让众多消费者防不胜防。近日,四川广安前锋区警方就破获了一起涉案金额高达3000多万元的侵犯著作权案。站长网2024-08-16 17:57:230000阿里推虚拟试穿技术Outfit Anyone 加上Animate Anyone轻松拿捏换装视频
要点:OutfitAnyone采用双流条件扩散模型,处理模特、服装和文本提示,通过衣物图像作为控制因素实现更逼真的虚拟试穿效果。该技术在处理服装变形方面表现出色,具有可扩展性,可调节因素包括姿势和身体形状,适用范围涵盖从动漫到真实场景的多种图像。站长网2023-12-14 14:25:070008旅游网站Expedia 利用人工智能挑战 Google 旅行搜索主导地位
据外媒报道,Expedia旅游网站日前宣布,将进一步整合人工智能技术,旨在让用户在其平台上进行全面的旅行搜索,摆脱对外部搜索引擎的依赖。该公司计划通过利用大数据和机器学习,根据用户的过往旅行经历,为其推荐个性化的旅行目的地,以吸引更多直接流量。0000撕掉“直男天堂”标签圈粉女性,迪卡侬是如何逆袭的?
过去,迪卡侬总被称之为“直男天堂”,店内清一色的“黑白灰”色衣服,充斥着浓浓工业风的装修风格,粗糙的商品货架,都与“都市丽人”毫不沾边。最近,迪卡侬的社交热度有所上涨,其中“迪卡侬女孩”“迪卡侬穿搭”等话题引起广泛讨论。而在小红书上,有关迪卡侬的笔记数量达到了10万,各种穿搭以及探店内容层出不穷。从最初的“直男天堂”到如今成功圈粉年轻女性群体,迪卡侬是如何逆袭的?站长网2023-08-31 18:18:050001全球第一CRM厂商,将类ChatGPT功能集成在CRM中
全球排名第一CRM厂商Salesforce在官网宣布,推出生成式AI助手EinsteinCopilot,并将其集成在CRM等产品矩阵中,帮助用户大幅度提升工作效率。据悉,EinsteinCopilot提供了类似ChatGPT的功能,用户通过文本对话的方式就能自动生成销售电子邮件、回复客户提问、生成创意营销文案、生成合同等,例如,帮我生成一份关于鞋子的社交平台营销文案。站长网2023-09-16 12:23:000000