RoboTool:让机器人通过大语言模型创新性地运用工具
**划重点:**
1. 🧠 研究人员在卡内基梅隆大学和Google DeepMind开发了RoboTool,这是一个系统,通过利用大型语言模型,扩展了机器人的能力,使它们能够更创造性地使用工具。
2. 🌐 RoboTool通过接受自然语言指令,使用GPT-4模型生成可执行代码,帮助机器人以更灵活和创意的方式解决各种复杂任务,如举重或按压难以到达的按钮。
3. 🏡 该系统不仅有望推动机器人在家庭任务中的应用,还能在领域中发挥创新作用,例如构建步石以攀爬到目标位置,或在灾后环境中适应性地利用工具。
研究人员在卡内基梅隆大学和Google DeepMind最近开发了名为RoboTool的系统,该系统通过利用大型语言模型,为机器人创造性地使用工具提供了可能性。该系统的引入有望为机器人领域带来新的创新和创造力浪潮。
"工具的使用经常被视为先进智能的标志,"卡内基梅隆大学博士候选人兼论文的共同第一作者Mengdi Xu介绍道。他补充说:"创意地使用工具不仅要求预测动作结果的全面能力,还需要推理使用哪种工具以及如何使用它们。"
机器人通常以标准和重复的方式完成手动任务,而不去探索替代方法。然而,通过更创新的方式解决问题,它们可以更好地应对复杂的现实场景。Mengdi Xu的同事之一、共同第一作者和博士候选人Peide Huang表示:"在机器人领域,创意工具使用也是一种关键但非常苛刻的能力,因为它需要全方位地预测行动结果、推理使用哪种工具以及规划如何使用它们。"
研究人员的主要目标是设计一个允许机器人更创造性地使用工具的系统。这种工具可以帮助机器人更有效地解决各种现实问题,例如在试图抓取无法触及的物体时,或者创建攀爬到目标位置的步石时,能够调整其策略。
Peide Huang解释说:"大型语言模型(LLMs)的崛起极大地增强了聊天机器人、编码自动化和视觉内容创建等功能。在这些数字界面之外,具有实体存在的AI可能代表着智能的下一个领域,即与现实世界进行有形互动。机器人作为LLMs的物理延伸,为这一探索提供了理想的媒介。"
过去的研究已经展示了LLMs在改善各种机器人功能方面的潜力,包括与用户的交流、推理、规划和任务执行。例如,Google DeepMind的SayCan工具使机器人能够理解诸如"I spilled my drink, can you help?"这样的自然语言指令,并随后制定策略来解决各种家务问题。然而,利用LLMs解决机器人身体和周围环境设定的隐含约束的问题仍然具有挑战性。
Peide Huang、Mengdi Xu及其同事决定探索LLMs的使用,以提高机器人在不同任务中的创造性。换句话说,他们希望创建一个系统,能够识别使看似"不可能"的任务成为可能的创意方法。
他们提出的系统名为RoboTool,接受关于环境、机器人结构和要遵循的任何约束的自然语言指令,然后生成应用机器人参数化低级技能以控制模拟和实体机器人的代码。
研究人员创建的新工具具有四个关键组件:分析器、规划器、计算器和编码器。分析器处理用户用自然语言给出的提示,识别可能影响所请求任务可行性的关键元素。
RoboTool的规划器组件接收原始语言输入和已识别的关键概念,利用它们制定完成任务的综合策略。计算器组件则确定参数,例如每个参数化技能所需的目标位置。
RoboTool的最终组件,即编码器,将规划器创建的综合计划和计算器产生的参数转换为可执行代码。值得注意的是,所有这些组件都是使用OpenAI的GPT-4模型开发的。
RoboTool使机器人能够创造性地使用工具,解决各种以前未遇到的复杂任务。例如,它可以帮助制造杠杆以举起重箱,或使用磁性方块制作杆以按下难以触及的按钮。
Peide Huang、Mengdi Xu及其合作者开发的这一新工具很快就能够被全球的机器人学家使用,以拓展其系统的能力。该工具可以使机器人执行更复杂的家务任务,例如使用可用工具清理排水管或修理破损的家具。
Mengdi Xu说:"RoboTool还可以通过即兴使用可用工具来改善机器人在碎片或倒塌的结构中导航,以达到被困人员。它还可以应用于建筑和维护,允许机器人使用手头上的任何工具适应性地修复机械设备或结构,或通过创造性地组合传统工具构建精细设计。"
研究人员已经在项目网站上发布了RoboTool的演示视频。在他们的下一项研究中,他们计划将大型视觉基础模型纳入其系统,包括支持3D计算机视觉的模型,因为这可以进一步增强机器人在开放环境中的感知和推理能力。卡内基梅隆大学的副教授、CMU Safe AI实验室主任丁昭表示:"我们还计划开发人类与RoboTool进行直观指导和协作的方式,并为RoboTool建立安全措施,以降低机器人与人类共同工作时的风险。"
YouTube推出新手势:长按即可2倍速观看视频
根据9to5google的报道,如今在YouTube上提高视频播放速度已经成为一种常见现象,尤其在播客领域。为此,谷歌正在测试一种新的手势,通过长按屏幕即可将视频的播放速度提高一倍。目前,在移动设备上调整播放速度需要点击视频窗口以显示控制选项,然后再点击设置按钮,最后选择所需的播放速度。这个过程需要四个步骤和多次点击。站长网2023-07-18 17:55:130000百度CEO李彦宏:大模型将重新定义人工智能应用,不担心工作机会减少
今日,百度CEO李彦宏在第七届世界智能大会上发表了题为《大模型改变人工智能》的演讲。他表示,人类最大的威胁不是创新带来的不确定性,而是按照惯性走下去所带来的各种不可预知的风险。大模型之所以会改变人工智能,原因在于大算力、大模型、大数据导致了智能涌现。站长网2023-05-18 14:52:500000大模型RoBERTa:一种稳健优化的 BERT 方法
要点:1.BERT模型的出现在自然语言处理领域取得了显著进展,但研究人员继续对其配置进行实验,希望获得更好的性能。2.RoBERTa是一种改进的BERT模型,通过多个独立的改进来提高性能,包括动态遮蔽、取消下一句预测、训练更长的句子、增加词汇量和使用更大的批次。站长网2023-09-25 10:06:190000联发科推出繁体中文 AI 多语言模型 BLOOM-zh
近日,联发科研究院宣布推出全球首个繁体中文AILLM,多语言模型BLOOM-zh在大多数繁体中文基准测试中优于其前身,同时保持其英语能力。据介绍,BLOOM-zh起源于BigScience于2022年推出的开源BLOOM模型。站长网2023-05-04 09:35:220002Animagine XL 3.1发布:一个开源的SDXL动漫模型
AnimagineXL3.1,一款全新的开源动漫主题文本到图像模型,已经正式发布。该版本在原有的基础上进行了一系列的升级和优化,使其对广泛的动漫作品和风格的理解更加深入,覆盖了从古老到现代的各种艺术风格。站长网2024-03-19 17:53:350004