RoboTool:让机器人通过大语言模型创新性地运用工具
**划重点:**
1. 🧠 研究人员在卡内基梅隆大学和Google DeepMind开发了RoboTool,这是一个系统,通过利用大型语言模型,扩展了机器人的能力,使它们能够更创造性地使用工具。
2. 🌐 RoboTool通过接受自然语言指令,使用GPT-4模型生成可执行代码,帮助机器人以更灵活和创意的方式解决各种复杂任务,如举重或按压难以到达的按钮。
3. 🏡 该系统不仅有望推动机器人在家庭任务中的应用,还能在领域中发挥创新作用,例如构建步石以攀爬到目标位置,或在灾后环境中适应性地利用工具。
研究人员在卡内基梅隆大学和Google DeepMind最近开发了名为RoboTool的系统,该系统通过利用大型语言模型,为机器人创造性地使用工具提供了可能性。该系统的引入有望为机器人领域带来新的创新和创造力浪潮。

"工具的使用经常被视为先进智能的标志,"卡内基梅隆大学博士候选人兼论文的共同第一作者Mengdi Xu介绍道。他补充说:"创意地使用工具不仅要求预测动作结果的全面能力,还需要推理使用哪种工具以及如何使用它们。"
机器人通常以标准和重复的方式完成手动任务,而不去探索替代方法。然而,通过更创新的方式解决问题,它们可以更好地应对复杂的现实场景。Mengdi Xu的同事之一、共同第一作者和博士候选人Peide Huang表示:"在机器人领域,创意工具使用也是一种关键但非常苛刻的能力,因为它需要全方位地预测行动结果、推理使用哪种工具以及规划如何使用它们。"
研究人员的主要目标是设计一个允许机器人更创造性地使用工具的系统。这种工具可以帮助机器人更有效地解决各种现实问题,例如在试图抓取无法触及的物体时,或者创建攀爬到目标位置的步石时,能够调整其策略。
Peide Huang解释说:"大型语言模型(LLMs)的崛起极大地增强了聊天机器人、编码自动化和视觉内容创建等功能。在这些数字界面之外,具有实体存在的AI可能代表着智能的下一个领域,即与现实世界进行有形互动。机器人作为LLMs的物理延伸,为这一探索提供了理想的媒介。"
过去的研究已经展示了LLMs在改善各种机器人功能方面的潜力,包括与用户的交流、推理、规划和任务执行。例如,Google DeepMind的SayCan工具使机器人能够理解诸如"I spilled my drink, can you help?"这样的自然语言指令,并随后制定策略来解决各种家务问题。然而,利用LLMs解决机器人身体和周围环境设定的隐含约束的问题仍然具有挑战性。

Peide Huang、Mengdi Xu及其同事决定探索LLMs的使用,以提高机器人在不同任务中的创造性。换句话说,他们希望创建一个系统,能够识别使看似"不可能"的任务成为可能的创意方法。
他们提出的系统名为RoboTool,接受关于环境、机器人结构和要遵循的任何约束的自然语言指令,然后生成应用机器人参数化低级技能以控制模拟和实体机器人的代码。
研究人员创建的新工具具有四个关键组件:分析器、规划器、计算器和编码器。分析器处理用户用自然语言给出的提示,识别可能影响所请求任务可行性的关键元素。
RoboTool的规划器组件接收原始语言输入和已识别的关键概念,利用它们制定完成任务的综合策略。计算器组件则确定参数,例如每个参数化技能所需的目标位置。
RoboTool的最终组件,即编码器,将规划器创建的综合计划和计算器产生的参数转换为可执行代码。值得注意的是,所有这些组件都是使用OpenAI的GPT-4模型开发的。
RoboTool使机器人能够创造性地使用工具,解决各种以前未遇到的复杂任务。例如,它可以帮助制造杠杆以举起重箱,或使用磁性方块制作杆以按下难以触及的按钮。
Peide Huang、Mengdi Xu及其合作者开发的这一新工具很快就能够被全球的机器人学家使用,以拓展其系统的能力。该工具可以使机器人执行更复杂的家务任务,例如使用可用工具清理排水管或修理破损的家具。
Mengdi Xu说:"RoboTool还可以通过即兴使用可用工具来改善机器人在碎片或倒塌的结构中导航,以达到被困人员。它还可以应用于建筑和维护,允许机器人使用手头上的任何工具适应性地修复机械设备或结构,或通过创造性地组合传统工具构建精细设计。"
研究人员已经在项目网站上发布了RoboTool的演示视频。在他们的下一项研究中,他们计划将大型视觉基础模型纳入其系统,包括支持3D计算机视觉的模型,因为这可以进一步增强机器人在开放环境中的感知和推理能力。卡内基梅隆大学的副教授、CMU Safe AI实验室主任丁昭表示:"我们还计划开发人类与RoboTool进行直观指导和协作的方式,并为RoboTool建立安全措施,以降低机器人与人类共同工作时的风险。"
OpenAI放王炸,Sora无限使用!3大新功能,2024最大惊喜!
今天凌晨2点,OpenAI开启了第三天技术直播,正式发布了期待已久的产品——SoraTurbo。与早期版本相比,Turbo的生成效率更快,能通过文本直接生成最多20秒1080P视频,这是目前全球生成时长最高的视频模型之一,同时支持文本图片/视频,生成特定视频内容,使得模型的生成效果更加可控。0000苹果将在法国发布iPhone 12软件更新解决手机辐射问题
快科技9月15消息,据国外相关媒体报道,苹果表示将为法国的iPhone12用户发布软件更新,以解决该国监管机构提出的辐射问题。在本周二的时候,法国辐射监管机构ANFR称相关测试结果显示iPhone12的比吸收率(SAR)高于法律允许值,要求苹果在法国停止销售iPhone12手机。该机构还称如果苹果公司不能解决已售出iPhone12辐射问题的话,将召回已出售的iPhone12手机。站长网2023-09-16 09:03:190000英伟达推出 AI 领域顶尖新芯片 HGX H200:以更高性能满足生成式 AI 需求
英伟达公司当地时间周一宣布,推出其AI工作的新一代顶级芯片——HGXH200。该新GPU在其广受欢迎的前代产品H100的基础上,实现了1.4倍的内存带宽提升和1.8倍的内存容量增加,大幅提高了其处理密集型生成AI工作的能力。站长网2023-11-14 09:04:540000大厂大模型,强在哪?
今年以来,中国科技公司掀起“百模大战”,大厂、创业公司都发布了自己的AI大模型。大模型越来越多,有闭源有开源,有通用也有垂直;企业做大模型的策略也不尽相同,有的坚持从底座做起,有的在开源架构之上抄近道。不过,虽然路径有差异,但有一点逐渐成为行业共识——大模型要落地,得从产业开始。B端的使用效果,成为评价一个大模型靠不靠谱的重要指标。站长网2023-07-26 14:05:170000新视频编辑模型VideoSwap 可精细化替换视频主体
**划重点:**🔄视频主体定制替换:VideoSwap框架通过语义点对应实现源视频主体与目标主体的形状变化替换。🚗形状变化挑战:传统基于扩散的视频编辑在处理形状变化时效果有限,VideoSwap引入语义点对应以应对这一挑战。🌐视频编辑革新:采用语义点对应的VideoSwap框架在自定义视频主体替换方面取得了卓越的效果,为视频编辑领域带来创新。站长网2023-12-08 11:12:300000