北大新成果:无需训练,机器人听指令就能灵活走位
要点:
1. 北大研究团队开发了一种具身导航系统,使机器人可以根据口头指令在室内环境中移动,无需额外训练或建图。
2. 这一系统涉及多个关键任务,包括指令分析、视觉感知、完成估计和决策测试,由大模型专家团队协同完成。
3. DiscussNav系统通过与大模型专家互动,使机器人能够根据人类指令移动,解决了机器人导航训练数据稀缺的问题,同时具备零样本能力,能够执行多样的导航指令。
北大的研究团队近期推出了一项具身导航系统,可使机器人无需额外训练或建图,仅通过口头指令在室内环境中自如移动。这一系统包括指令分析、视觉感知、完成估计和决策测试等多个关键任务,需要不同领域的知识,这些任务由一个大模型专家团队协同完成。
作者启发于现实中专家讨论行为,设计了DiscussNav导航系统,通过赋予大语言模型(LLM)和多模态大模型(MLM)专家角色和任务,构建了具备不同专长的视觉导航专家团队。
论文地址:https://arxiv.org/pdf/2309.11382.pdf
在这一系统中,导航机器人会在每一步移动前主动与专家讨论,以理解人类指令中所需的动作和提及的物体标志。然后,它会根据这些物体标志类型倾向性地感知周围环境,估计指令的完成情况,并做出初步的移动决策。
值得注意的是,在决策过程中,机器人会同时生成多个独立的预测结果,并在这些结果之间出现不一致时,向决策测试专家求助,以筛选出最终的移动决策。这一方法不同于传统方法,无需额外预训练,通过与大模型专家的互动,直接解决了机器人导航训练数据稀缺的问题,并具备零样本能力。
DiscussNav系统在经典的视觉语言导航数据集Room2Room上的表现显著超越了所有零样本方法,甚至胜过了经过训练的方法。
研究团队还在Turtlebot4移动机器人上进行了真实室内场景导航实验,结果表明,该系统在真实世界中的表现明显优于之前最优的零样本方法和经过预训练微调的方法,展现出良好的从模拟环境到真实环境的迁移能力。
作者指出,这一系统具备四个强大的能力,包括识别开放世界物体、识别细粒度的导航标志物体、纠正其他专家在讨论中的错误信息,以及排除不一致的移动决策。
此外,作者还提出,深入研究如何有效利用仿真数据和大模型从海量数据中学到的先验知识是未来具身智能研究的发展方向。尽管受到数据规模和真实环境探索成本的限制,但大模型的进展为具身智能提供了新方向,将推动其发展。
在总体上,北大的DiscussNav系统代表了具身导航领域的一项重要突破,使机器人能够根据口头指令自如导航,同时具备零样本能力,这对未来的智能机器人和自动化应用具有重要意义。
元宇宙凉了,过年不看春晚,还有蓬勃发展的虚拟人
2023,有人相信虚拟数字人赛道能继续腾飞,也有人揣测虚拟数字人是一鸣惊人而竭的匆匆流星。这一年,虚拟数字人的融资和应用较前一年都呈现出从“心动爆发期”向“平稳考察期”的转变。除了喧哗市声,虚拟数字人的应用市场也有许多涌动的暗流。究竟要不要用虚拟数字人?有人观望,有人否定,也有人结束观望投入行动,更有人成了第一批吃到螃蟹的。除了商家态度,虚拟数字人在各大平台也面临着不同的待遇和命运。站长网2024-02-16 10:48:130000YouTube 将为苹果 Vision Pro 开发专属应用
据国外媒体报道,YouTube已在规划苹果VisionPro专属的适配应用程序。YouTube发言人JessicaGibby表示:“我们很高兴看到VisionPro的发售,我们将通过确保用户在Safari上获得良好体验来支持它。我们目前没有任何具体计划可以分享,但可以确认VisionPro应用已在我们的规划之中。”站长网2024-02-07 11:39:180000一个“视品牌”的突围:押注视频号,合作几百位达人,年GMV近3亿
视频号会像淘宝、抖音一样拥有自己的“视品牌”吗?在慕江南创始人周大帅看来,慕江南就是典型的“视品牌”。自2021年入局视频号,慕江南几乎完整见证了视频号电商的发展。2023年,慕江南在视频号的累计GMV近3亿元,占总业绩的65%。0000最强开源多模态生成模型MM-Interleaved 支持任意穿插的图文输入和输出
要点:1、多模态生成大模型的新突破;2、独创特征同步器,刷新多项任务SOTA;3、可应用于多种图文生成及图像生成任务。近期,一项开源项目MM-Interleaved引起了学者的广泛关注,该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器,刷新多项任务SOTA,拓展了多种图文生成及图像生成任务的应用领域,为多模态大模型的发展提供了新的活力。站长网2024-02-01 14:56:070000美图吴欣鸿:未来AI会更多地参与到美图视觉的创作过程中
据美图官方消息,在第二届美图影像节“AI与设计”主题论坛,美图公司创始人、董事长兼首席执行官吴欣鸿表示,美图影像节的很多物料,都是用美图AI生成的。相信未来AI还会更多地参与到美图视觉的创作过程中,极大地提高效率。目前,美图会关注AI在商业设计领域带来的改变。AI在设计方面的辅助作用可以极大地缩短整个验证流程,也可以让很多消费者的反馈第一时间传递到品牌决策方,大大提升商业效率。站长网2023-06-22 11:06:500000