带记忆的超级GPT智能体,能做饭、煮咖啡、整理家务!
随着AI技术的快速迭代,Alexa、Siri、小度、天猫精灵等语音助手得到了广泛应用。但在自然语言理解和完成复杂任务方面仍然有限。
相比文本的标准格式,语音充满复杂性和多样性(例如,地方话),传统方法很难适应不同用户的自定义语言,因此,语音助手需要针对固定领域设计语义解析方案,而无法对完全开放的语言进行建模。
为了解决这一难题,卡内基梅隆大学的研究人员基于大语言模型、视觉模型开发了HELPER。
该模型采用了检索增强的大语言模型提示方法,可以将人机对话、指令和错误纠正转换为一系列参数化的视觉运动。
同时在成功执行指令后,HELPER会将语言指令和执行计划作为记忆进行存储。
当用户再次提出类似请求时,HELPER会自动检索相关记忆并进行适当修改来满足新的要求,从而实现个性化交互。
在TEACh的实验数据显示,从对话中推断步骤的测试中,HELPER的任务成功率和目标条件成功率分别提高了1.7倍和2.1倍,超过了之前最好的模型。在从历史对话中执行任务中,HELPER也取得了绝佳的效果。
开源地址:https://github.com/Gabesarch/HELPER
论文地址:https://arxiv.org/abs/2310.15127
研究人员用物理模拟的方式展示了多个示例,HELPER可以进行洗锅、煮咖啡、做面包、整理卡片、制作饮料等一系列拟人化操作,并且你只需要详细的告诉它一次就能记住你的需求,以后无需多说就能照着做。
从论文内容来看,HELPER的技术架构主要由规划器、执行器和视觉语言模型三大块组成。
规划器
该模块利用检索增强的大语言模型来进行语义解析和生成一系列执行计划,同时配备了一个文本到程序的外部记忆存储器,相当于该模型的“大脑”。
在进行语言解析时,规划器会先基于当前语言的输入,使用大语言模型的编码器计算输入文本的向量表示,然后检索出记忆库中语义最相关的若干条记录,将其中的文本-程序对作为LLM的文本示例,随后让LLM生成新的程序。
生成的程序使用Python语言描述,涵盖一系列参数化的视觉运动函数,如pickup(X)、goto(X)等,同时也负责处理执行失败后的重新规划。
例如,当某个动作执行失败时,系统会调用外部的视觉语言模型来分析失败原因并生成文本反馈, 规划器随后会根据反馈提示LLM生成修正后的新程序。
此外, 规划器也会在任务成功执行后,将用户指令语言和对应的执行程序加入记忆库中,实现个性化学习。
执行器
该模块主要负责解析规划器生成的程序,并基于当前环境执行指令操作,具体操作如下:
场景解析器:构建环境的语义地图、占用地图,以及通过目标检测跟踪对象信息。
动作执行器:将程序中的函数调用翻译成具体的导航和操作动作执行。
前提检查器:在执行每个动作前,验证必要的前提条件是否满足。
位置检查器:当需要找到不在场景地图中的目标物体时,该模块会提示LLM生成可能的搜索位置。
简单来说,执行器模块相当于HELPER的“四肢”,用来执行具体的内容。
视觉语言模型
当具体计划执行失败时,系统需要分析失败原因。所以,HELPER使用了视觉语言模型ALIGN进行纠错、审查。
方法是将当前视觉输入与一系列预定义的错误文本进行匹配,输出最相似的错误类型,帮助规划器模块快速找到错误所在。这种方法比简单的像素对比判断故障类型更加精准和通用。
6000万GMV,数百万投给了小红书:新品牌如何布局新流量平台?
伴随着城市养宠人群规模扩大、养宠理念变化,宠物智能用品成了新兴的、具备高潜力的赛道。越来越多的年轻人,宁愿亏待自己,也要给“猫主子”“毛孩子”吃更好的粮、用更好的玩具、花更多的钱。曾有网友表示:在帮猫咪升级主粮后,考虑到猫咪喝水也很重要,于是他上网买了一台300块的智能饮水机;之后,他依次更换了猫窝、猫砂......这一波升级操作之后,他的花呗数字飙升到了近一万。站长网2023-06-16 19:39:55000264位是主流!《英雄联盟》国服确定:13.11更新停止支持32位Win系统
5月30日消息,今年3月,《英雄联盟》外服就已宣布将在13.7版本后,停止支持32位Windows操作系统。《英雄联盟》国内运营团队为了让使用32位系统的玩家有足够时间升级至64位,特地延迟了几个版本周期。不过,今日《英雄联盟》官方发布公告,正式宣判了32位系统死期”,官方表示,在13.11版本发布后,《英雄联盟》将正式停止支持32位系统。站长网2023-05-30 16:17:570000真我12 Pro系列官宣:本月在美国拉斯维加斯发布
站长之家(ChinaZ.com)1月9日消息:realme徐起宣布,真我12Pro系列将于本月在美国拉斯维加斯正式亮相。这一消息引起了广泛关注,因为真我12Pro系列被视为realme的一款旗舰级新品。0000李彦宏:大模型即将改变世界,百度要第一个把全部产品用大模型重做一遍
这就是站在技术浪潮的最前沿,李彦宏的最新感悟。在今天的2023中关村论坛上,李彦宏作为开场嘉宾,发表了题为《大模型改变世界》的演讲。这一国际科技大会由科技部、国家发展改革委、工业和信息化部、国务院国资委、中国科学院、中国工程院、中国科协、北京市政府共同主办。演讲嘉宾包括微软创始人比尔·盖茨,以及菲尔兹奖得主、图灵奖得主等顶级科学家代表。站长网2023-05-27 10:11:200000互联网兴起“赛博判官”,从美团到小红书,用户为什么入局?
“判官”这个词大家不陌生吧?从诸多争议的青岛地铁判官到传为笑谈的综艺判官,判官,渐渐成为了互联网的一个梗。当判官和外卖联系在一起,又会擦出什么样的流量火花呢?近期,网络上出现了一个新的名词,叫“赛博判官”,判官好理解,赛博为Cyber音译,源于希腊文Kyber,原意为舵手。赛博在现代的词义是电脑仿生,人工智能的意思。两个词连起来的定义是这样的:站长网2023-11-21 16:12:320000