DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐
文章概要:
1. ReST是一种新方法,通过成长式批量强化学习来调整大型语言模型与人类偏好保持一致。
2. ReST使用基于奖励模型的评分函数来过滤策略生成的样本,奖励模型通过学习人类偏好得到。
3. ReST内循环使用离线强化学习目标(如DPO)进行策略优化,外循环通过采样增长数据集。
近年来,大型语言模型在生成流畅文本和解决各种语言任务上展现出惊人的能力。但是,这些模型并不总是与人类的偏好和价值观相一致,如果不加以适当指导,可能会生成有害或不合需求的内容。如果将语言模型与人类偏好对齐,既可以提高模型在下游任务上的表现,也可以改善模型的安全性。
为此,DeepMind的研究人员提出了一种称为Reinforced Self-Training(ReST)的新方法,旨在将语言模型与人类偏好对齐。ReST受成长式批量强化学习的启发,包含内外两个循环:内循环在给定数据集上改进策略,外循环通过从最新策略中采样来增长数据集。
具体来说,ReST使用基于奖励模型的评分函数来对策略生成的样本进行排名和过滤。奖励模型通过从各种源头(比如评分、排序、比较)收集人类偏好进行训练。评分函数还可以结合其他因素,比如样本的多样性或长度惩罚,以确保数据集的平衡。
ReST 可以在内部循环中使用不同的离线 RL 目标:ReST 是一种通用方法,可以在内部循环中使用任何离线 RL 目标,例如 DPO(直接偏好优化)、BCQ(批处理约束 Q 学习)或 CQL(保守 Q 学习)。研究人员在几项任务上比较了这些目标,发现DPO在大多数情况下表现最佳。
ReST是一种使用不断增长的批量RL使LLM与人类偏好保持一致的新方法。与现有的RLHF方法相比,ReST具有几个优势,例如计算效率,数据质量和奖励黑客的鲁棒性((Robustness))。
ReST可以提高LLM在各种任务上的性能和安全性。。ReST可以提升语言模型在诸如机器翻译、摘要生成或对话生成等任务上的性能和安全性。同时,ReST也很简单易实现,只需要能对模型进行采样和评分即可。
ReST简单易行。ReST 几乎没有需要调整的超参数,并且简单可靠。ReST 只需要能够从模型中采样并对其要实现的样本进行评分。
76家上市游戏公司年报:近七成游戏收入下滑,18家公司提及AIGC应用
去年上市游戏公司的年度财报还是比想象的惨淡。《2022年中国游戏产业报告》显示,去年中国游戏市场实际销售同比下降14.4%,少见地出现了负增长。Newzoo的报告也表明,全球游戏市场规模在2022年首次迎来下滑。冷淡的行情在上市公司的业绩中体现出来了。站长网2023-05-09 10:32:210000腾讯今年最“炸场”的产品,用九年时间从红海里杀出来
不管是对移动端还是PC/主机端来说,今年都是个游戏大年。之后几个月,大作玩不过来可能会是不少人的处境。而在今年还未上线的端游大作中,很多人对拳头研发、腾讯发行的《无畏契约》的预期是最高的。而水晶哥(主播&前电竞选手)甚至在直播中直言,它可能会在未来十年“统治FPS”。截自B站直播切片站长网2023-06-27 17:06:460000OnePlus11 和 12 手机将迎来人工智能功能更新
据Reddit上发布的ColorOS更新透露,OnePlus11和12即将引入人工智能功能。尽管在OnePlus12推出时未包含大型人工智能功能,但最新的更新表明,至少在中国市场,这些功能已经加入。尽管它还没有像其他安卓手机那样全面拥有人工智能功能,但OnePlus显然正在朝着这个方向发展。站长网2024-02-04 09:52:280001周鸿祎:不会用GPT的人会被淘汰 360AI商店上线
站长之家(ChinaZ.com)5月15日消息:在近日的央视《对话》播出的《寻找AI的边界》节目中,360集团创始人周鸿祎表示,这次人工智能是真的,不是假的,GPT-4.0已经是地球上最聪明的“人”了。所有高科技公司都在打造自己的大模型,至少是千模大战,不出意外的话,很快会发展到万模大战。站长网2023-05-15 08:18:450000AI公司用“AI合成数据”来训练AI大语言模型成趋势
站长之家(ChinaZ.com)导语:AI公司正试图通过“创造信息”来获得用于训练AI系统的大量数据,这被称为"合成数据"。现在,AI模型的发展已经达到了人类创造的数据的极限,因此需要新的方法来训练模型。站长网2023-07-19 19:53:520000