研究表明:大语言模型从人类反馈中学得更快更智能
划重点:
1. 🧠 大型语言模型(LLMs)通过在线上下文学习展现了广泛的机器学习能力,使非专家能够通过语言指令编写机器人代码,根据反馈修改行为或组合执行新任务。
2. 🔄 通过Language Model Predictive Control(LMPC)框架,研究团队成功通过对机器人代码编写LLMs进行微调,提高其适应人类输入的效率,从而加速学习过程。
3. 🤖 实验证明,LMPC不仅提高了未见任务的成功率,还通过优化适应性和响应性,为多轮对话中的机器人适应性学习提供了强大支持。
近期研究表明,大型语言模型(LLMs)在通过在线上下文学习方面表现出许多强大的能力,其中包括从语言命令中编写机器人代码的技能。这使得非专家用户能够直接指导机器人行为,根据反馈进行修改,甚至组合行为以执行新任务。然而,这些能力主要限于短期交互,因为用户的反馈只在LLM上下文大小范围内保持相关,且在较长时间的交互中可能被遗忘。
为了解决这一问题,研究团队着手对机器人代码编写LLMs进行微调,以记住其上下文交互并提高其可教学性,即它们对人类输入的适应效率(以用户认为任务成功之前的平均更正次数为度量)。
研究观察到,当将人机交互形式化为部分可观察的马尔科夫决策过程时(其中人类语言输入是观察值,而机器人代码输出是动作),训练LLM以完成先前的交互可以被视为训练一个过渡动态模型。这个模型可以与经典的机器人技术结合使用,如模型预测控制(MPC),以发现通往成功的更短路径。这就是Language Model Predictive Control(LMPC)框架的产生,通过对PaLM2进行微调,它在5个机器人实体上的78个任务中提高了未见任务的非专家教学成功率,同时将人类更正的平均次数从2.4降低到1.9。
LMPC的成功在于其对用户教学新任务的成功率提高了26.9%,同时在未见机器人实体和API上的实验中,通过提高上下文学习新任务的成功率,提高了31.5%。通过LMPC-Rollouts和LMPC-Skip这两个变体,研究团队加速了机器人通过上下文学习进行快速适应的能力。实验证明LMPC-Rollouts在多轮对话中更具通用性,对于首次响应不正确的反馈更易于纠正。为了最大程度地提高实际性能,研究建议使用LMPC-Skip来响应初始用户指令,然后使用LMPC-Rollouts来响应后续用户反馈。
研究团队在78个机器人任务中进行了实验,覆盖了5个机器人实体的模拟环境和2个真实硬件实体。实验中探讨了微调策略对在线上下文学习的影响,包括提高教学效果、LMPC-Rollouts和LMPC-Skip的比较、Top-User Conditioning的好处、微调是否实现跨机器人实体的泛化以及迭代微调是否进一步提高可教学性。
在真实世界中,研究团队对移动操纵器和机器狗的子集任务进行了评估,要求用户直接在真实机器人上进行四次教学会话。结果显示,LMPC-Rollouts在所有任务上的成功率均高于PaLM2-S。尽管在这些任务上,PaLM2-S和LMPC-Rollouts的成功会话的平均聊天轮次大致相同,但LMPC-Rollouts取得了更高的成功率。
通过实际演示,研究团队展示了他们的系统如何教授多个机器人实体复杂的行为,同时还展示了在教学前后机器人行为的显著差异。这个创新的方法不仅在模拟环境中取得了显著成果,而且在真实机器人上也取得了令人瞩目的效果。
这项研究通过LMPC框架的应用,成功提高了机器人代码编写LLMs的可教学性,为人机交互中机器学习的快速适应性开辟了新的道路。
论文网址:https://robot-teaching.github.io/
新AI工具DrugGPT:或可帮助英国医生开具处方药
划重点:-💊新AI工具DrugGPT旨在为医生开具处方提供安全网,帮助患者更好理解药物的用途和使用方法。-💉DrugGPT通过聊天机器人形式,向医生提供关于药物推荐、可能的不良反应和药物相互作用的信息。-🏥研究指出,英格兰每年大约有2.37亿次药物错误,使用DrugGPT等工具可能有助于减少这些错误。站长网2024-04-06 14:18:270000程一笑眼里的信任电商,离不开3个支撑点
过去三年,快手电商收获了GMV和买家数量的数倍增长。2022全年,快手电商GMV同比增长32.5%达到9012亿元,月活跃买家稳定在1亿以上。快手电商生态也发生了翻天覆地的变化,从历届引力大会我们就能看到清晰的答案。2021年,在首届快手电商引力大会上,快手向外界展示了快手电商独有的“内容私域”生态的潜力和爆发力。站长网2023-05-15 16:35:450000先进的人工智能工具正在崛起,但「安全」并不是监管人工智能的最佳标准
微软于上周发布了其BingImageCreator的新版本,这是一个由OpenAI的新模型DALL-E3提供支持的AI图像生成工具。它旨在提供比之前的图像生成AI模型(如Midjourney、StableDiffusion或OpenAI自己的DALL-E2)更强大的功能,包括比以前更丰富地理解复杂用户请求的能力。站长网2023-10-16 09:51:210001微软为AI背包申请专利 布满传感器、拥有语音功能
文章概要:1.微软为一款布满传感器、拥有AI功能的背包申请了专利。2.背包可以检测语音、识别周围物体、给出方向、访问云端等。3.尽管细节奇特,但微软可能判断时机成熟,AI可穿戴设备市场需求上升。最近,微软申请了一个充满传感器、配备AI的背包专利,使可穿戴技术提升到一个新的水平。该专利背包规格也很不一般,包括检测用户语音、给出建议、录制和存储音频等功能。站长网2023-09-04 15:15:490000微信官方安利提醒功能:一键治好健忘 网友赞“比闹钟管用”
快科技7月8日消息,今天,微信派官方账号发布微信提醒功能使用教程:在聊天界面中直接长按消息,找到提醒,点击选择需要提醒的时间。到时间了微信就会自动通知弹出提醒,也可以把想要提醒的事件发给朋友。对于这个功能,有网友表示比闹钟好用”,很多时候,好友头一天发来邀请聚餐的微信信息,第二天转头就忘了,对于记性不好的用户来说,微信自带的提醒功能还是很实用且方便的。站长网2024-07-09 11:50:450000