北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界
站长网2023-11-07 12:06:100阅
要点:
1. LLaMA-Rider是一个训练框架,赋予大型语言模型在开放世界中自主探索、学习任务的能力,提高其适应开放环境的通用智能。
2. LLaMA-Rider采用反馈-修改机制进行主动探索,在探索阶段将成功经验整合为监督数据集,然后用于微调模型,提高多任务解决的能力。
3. LLaMA-Rider的实验表现优于其他方法,具有高采样效率和低训练代价,展现了对开放世界的持续学习和多任务解决能力。
北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架,旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索,使模型在环境中接收反馈信息,不断调整决策,从而逐渐适应开放环境。
项目地址:https://github.com/PKU-RL/LLaMA-Rider
LLaMA-Rider采用两阶段训练方法,首先让模型在环境中自主探索,然后将成功经验整合为监督数据集,用于模型微调,提高多任务解决的能力。在实验中,LLaMA-Rider的表现优于传统任务规划器,具有高采样效率和低训练代价,尤其在处理大动作空间和复杂场景时表现出色。
LLaMA-Rider还展现了对新任务的泛化能力,表明模型学到了决策的泛化性。作者还验证了子任务重标记的重要作用,以及模型在任务相关问题中的准确回答,证明了模型在训练过程中学到了与环境知识的对齐。
实验结果显示,LLaMA-Rider在多任务解决上表现出高采样效率和低训练代价,与强化学习方法相比具有优势。这个研究为大型语言模型在开放世界中的自主学习提供了重要思路,具有广阔的应用前景。
0000
评论列表
共(0)条相关推荐
重磅!GPT-3.5 Turbo推出微调功能,可以打造专属ChatGPT啦!
8月23日凌晨,OpenAI在官网宣布,推出GPT-3.5Turbo微调功能并更新API,使企业、开发人员可以使用自己的数据,结合业务用例构建专属ChatGPT。GPT-4的微调功能将于今年秋天推出。站长网2023-08-23 18:08:440000马斯克发文反对美国禁止TikTok:违背言论和表达自由
快科技4月20日消息,当地时间4月19日,特斯拉CEO马斯克在社交媒体平台X发文明确反对美国禁止TikTok,其表示:我认为TikTok不应在美国被禁,尽管相关禁令可能会让X平台受益,这样的做法有悖于言论和表达自由”。今年3月13日,美国众议院投票通过了一项保护美国人免受外国对手控制应用程序侵害法”的法案。站长网2024-04-20 13:55:320000贾跃亭发视频称成长吧奋斗者:加班到凌晨吃油条配咸菜
站长之家(ChinaZ.com)5月14日消息:5月14日,贾跃亭通过一段名为“成长吧!奋斗者”的视频,向公众展示了他在美国的日常奋斗生活。视频中,贾跃亭深夜仍在工作,晚餐仅仅是简单的油条、豆浆和咸菜。这样的生活状态,与他曾经的亿万富翁身份形成了鲜明对比。然而,他并未因此气馁,反而以“成长吧!奋斗者”作为激励,继续在漆黑的夜幕中前行。站长网2024-05-14 11:27:55000014 Ultra上岸:小米手机进入“卢伟冰时刻”?
小米,从来不缺关注。2024年2月22日,小米史上首场“人车家全生态”发布会在北京举行,亮相了多款新品,成为互联网热议的焦点。这其中,卢伟冰与小米14Ultra尤为引人注目。小米14Ultra,对卢伟冰到底意味着什么?作为开年首款重磅“超大杯”旗舰机,小米14Ultra究竟胜算几何?冲击全球高端市场,小米与苹果终有一战?雷军“冲塔”,卢伟冰“守家”“欢迎卢伟冰。”站长网2024-02-24 10:21:400000Adobe 正致力于开发「Project Fast Fill」生成式人工智能视频处理技术
站长之家(ChinaZ.com)10月13日消息:Adobe正在展示一个名为ProjectFastFill的新的生成填充功能,它可以借助AI的力量轻松在视频中添加或删除对象。这是该公司在今年的MAX大会上宣布的几项新的实验性AI功能之一。ProjectFastFill能够在运动中更换人物的服装配饰或从风景画的背景中删除游客。站长网2023-10-13 12:01:310000