首页站长资讯北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界

北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界

站长网2023-11-07 12:06:100阅

要点:

1. LLaMA-Rider是一个训练框架，赋予大型语言模型在开放世界中自主探索、学习任务的能力，提高其适应开放环境的通用智能。

2. LLaMA-Rider采用反馈-修改机制进行主动探索，在探索阶段将成功经验整合为监督数据集，然后用于微调模型，提高多任务解决的能力。

3. LLaMA-Rider的实验表现优于其他方法，具有高采样效率和低训练代价，展现了对开放世界的持续学习和多任务解决能力。

北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架，旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索，使模型在环境中接收反馈信息，不断调整决策，从而逐渐适应开放环境。

项目地址:https://github.com/PKU-RL/LLaMA-Rider

LLaMA-Rider采用两阶段训练方法，首先让模型在环境中自主探索，然后将成功经验整合为监督数据集，用于模型微调，提高多任务解决的能力。在实验中，LLaMA-Rider的表现优于传统任务规划器，具有高采样效率和低训练代价，尤其在处理大动作空间和复杂场景时表现出色。

LLaMA-Rider还展现了对新任务的泛化能力，表明模型学到了决策的泛化性。作者还验证了子任务重标记的重要作用，以及模型在任务相关问题中的准确回答，证明了模型在训练过程中学到了与环境知识的对齐。

实验结果显示，LLaMA-Rider在多任务解决上表现出高采样效率和低训练代价，与强化学习方法相比具有优势。这个研究为大型语言模型在开放世界中的自主学习提供了重要思路，具有广阔的应用前景。

北大 amp智源提出训练框架LLaMARider让大模型自主探索开放世界

0000

评论列表

共(0)条

相关推荐

站长资讯
可怕！安卓恶意软件曝光 50个品牌890万部手机被感染
【手机中国新闻】5月22日，手机中国从外媒了解到，全球有890万部安卓手机被一个名为柠檬集团（LemonGroup）的网络犯罪组织预先感染，成为他们进行恶意活动的工具。这些手机不仅会被用来窃取和出售短信、社交媒体和在线通讯账户，还会被用来显示不必要的广告和进行点击欺诈，给用户带来巨大的损失和麻烦。安卓
站长网2023-05-24 14:45:34
0000
站长资讯
5分钟5000元，五一挤到天上了
“五一出行，怎么才能避开人山人海?”陈琳很早就开始琢磨。她最终决定，“飞到天上”躲一躲。但没想到，一连预约了几家高空跳伞基地，得到的回复都是，“对不起，没有位置了”。今年五一，不但地上挤，天上也开始挤了。从数千米的高空纵身一跃，经历几十秒的高速自由落体后，当伞包打开，就可以像鸟儿一样，在碧海蓝天间翱翔了……
站长网2023-05-04 15:29:38
0000
站长资讯
这么多年终于等来了！即日起12306试行上线选铺服务：自选上下铺
快科技6月10日消息，以往很多年，只有在代售点或线下窗口购买卧铺火车票才能选铺，12306购买卧铺票只能被系统自动分配。这让很多乘车人非常难受，只能被迫退票后，重新下单，而在节假日时间段很可能退票后就无票可买了。从网友反馈来看，很多年轻人比较偏爱上铺，因为上车就能与世隔绝”的休息了，而在下铺比较吵闹且会被别人坐上来，一般是腿脚不方便的老年人会比较偏爱。
站长网2023-06-11 22:38:26
0000
站长资讯
小米13系列发布澎湃OS正式版内测升级：抖音更流畅新增出行助手
快科技7月21日消息，日前，小米宣布小米13、小米13Pro、小米13Ultra发布最新澎湃OS正式版内测尝鲜升级。三款机型升级包版本如下：小米13：OS1.0.10.0.UMCCNXM小米13Pro：OS1.0.8.0.UMBCNXM小米13Ultra：OS1.0.12.0.UMACNXM上述机型正式版内测用户可点击设置-我的设备-系统版本进行OTA更新。
站长网2024-07-21 14:12:07
0000
站长资讯
英伟达发布2024财年第一财季财报净利润同比增长26%
今日早间，英伟达发布2024财年第一财季财报称，第一财季营收为71.92亿美元，同比下降13%，环比增长19%。净利润为20.43亿美元，同比增长26%。环比增长44%。
站长网2023-05-25 10:27:19
0000