DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐
文章概要:
1. ReST是一种新方法,通过成长式批量强化学习来调整大型语言模型与人类偏好保持一致。
2. ReST使用基于奖励模型的评分函数来过滤策略生成的样本,奖励模型通过学习人类偏好得到。
3. ReST内循环使用离线强化学习目标(如DPO)进行策略优化,外循环通过采样增长数据集。
近年来,大型语言模型在生成流畅文本和解决各种语言任务上展现出惊人的能力。但是,这些模型并不总是与人类的偏好和价值观相一致,如果不加以适当指导,可能会生成有害或不合需求的内容。如果将语言模型与人类偏好对齐,既可以提高模型在下游任务上的表现,也可以改善模型的安全性。
为此,DeepMind的研究人员提出了一种称为Reinforced Self-Training(ReST)的新方法,旨在将语言模型与人类偏好对齐。ReST受成长式批量强化学习的启发,包含内外两个循环:内循环在给定数据集上改进策略,外循环通过从最新策略中采样来增长数据集。
具体来说,ReST使用基于奖励模型的评分函数来对策略生成的样本进行排名和过滤。奖励模型通过从各种源头(比如评分、排序、比较)收集人类偏好进行训练。评分函数还可以结合其他因素,比如样本的多样性或长度惩罚,以确保数据集的平衡。
ReST 可以在内部循环中使用不同的离线 RL 目标:ReST 是一种通用方法,可以在内部循环中使用任何离线 RL 目标,例如 DPO(直接偏好优化)、BCQ(批处理约束 Q 学习)或 CQL(保守 Q 学习)。研究人员在几项任务上比较了这些目标,发现DPO在大多数情况下表现最佳。
ReST是一种使用不断增长的批量RL使LLM与人类偏好保持一致的新方法。与现有的RLHF方法相比,ReST具有几个优势,例如计算效率,数据质量和奖励黑客的鲁棒性((Robustness))。
ReST可以提高LLM在各种任务上的性能和安全性。。ReST可以提升语言模型在诸如机器翻译、摘要生成或对话生成等任务上的性能和安全性。同时,ReST也很简单易实现,只需要能对模型进行采样和评分即可。
ReST简单易行。ReST 几乎没有需要调整的超参数,并且简单可靠。ReST 只需要能够从模型中采样并对其要实现的样本进行评分。
华为Mate 60 Pro 1TB版本上架 已开始预约抢购
华为商城近日宣布,华为Mate60Pro1TB版本已正式上架,于昨晚18:08开始抢购,售价为7999元。这款手机拥有1TB的超大存储空间,可满足用户对存储需求的大量需求。华为Mate60Pro1TB版本搭载了高性能处理器,提供流畅的使用体验。此外,该手机还具备出色的摄像功能,能够捕捉生活中的美好瞬间。感兴趣的消费者不妨抓住机会,抢购这款备受期待的手机。站长网2023-09-10 10:46:490000谷歌推出新图像控制方式 可在StableDiffusion图像生成中保证内容特征一致性
Google最近推出了一种新的图像生成技术,通过保证内容特征的一致性,可以生成具有相同视觉特征的连贯图像。这对于故事可视化、游戏开发和广告等领域非常重要,因为在生成过程中,角色或内容的一致性是必需的。论文地址:https://arxiv.org/pdf/2311.10093.pdf站长网2023-11-20 11:22:440005一场7500万,“边扔边带货”能火几天?
双十一即将到来,带货直播行业又“卷”起来了。在抖音平台,有这样一个直播间,一位漂亮的主播打开橙色盒子,拎起一件浴巾展示,“洗完澡可以穿的浴巾,10块”,报完价格后将盒子往旁边一“扔”,再换下一个盒子,拎起下一件单品,报价,如此往复,很多用户表示,耳朵还没听清,链接已经被抢光。抖音账号“郑香香”正在“过品直播”站长网2023-10-18 21:14:580000科学家公布最新全球红树林分布数据集
海南儋州新英红树林。(资料图)贾明明供图海南海桑红树林。(资料图)贾明明供图记者近日从中国科学院东北地理与农业生态研究所获悉,中美两国科学家最新联合研究表明,全球红树林生境较为破碎,截至2020年,全球红树林斑块约有33.7万个,其中95%以上斑块的面积小于1平方千米。站长网2023-05-25 06:12:130000马斯克称X将隐藏点赞和转发数 只显示“浏览量”
最近,马斯克通过个人推文透露了未来的一个重大变化:在X平台的信息流中,将不再默认显示推文的“点赞”和“转推”计数。用户如果想要查看这些信息,必须主动点击相应的推文。这一设计理念的转变,旨在通过减少界面上的冗余元素,提升用户的浏览体验。站长网2024-03-08 15:31:180000