DeepMind研究人员提出ReST算法:用于调整LLM与人类偏好对齐
文章概要:
1. ReST是一种新方法,通过成长式批量强化学习来调整大型语言模型与人类偏好保持一致。
2. ReST使用基于奖励模型的评分函数来过滤策略生成的样本,奖励模型通过学习人类偏好得到。
3. ReST内循环使用离线强化学习目标(如DPO)进行策略优化,外循环通过采样增长数据集。
近年来,大型语言模型在生成流畅文本和解决各种语言任务上展现出惊人的能力。但是,这些模型并不总是与人类的偏好和价值观相一致,如果不加以适当指导,可能会生成有害或不合需求的内容。如果将语言模型与人类偏好对齐,既可以提高模型在下游任务上的表现,也可以改善模型的安全性。
为此,DeepMind的研究人员提出了一种称为Reinforced Self-Training(ReST)的新方法,旨在将语言模型与人类偏好对齐。ReST受成长式批量强化学习的启发,包含内外两个循环:内循环在给定数据集上改进策略,外循环通过从最新策略中采样来增长数据集。
具体来说,ReST使用基于奖励模型的评分函数来对策略生成的样本进行排名和过滤。奖励模型通过从各种源头(比如评分、排序、比较)收集人类偏好进行训练。评分函数还可以结合其他因素,比如样本的多样性或长度惩罚,以确保数据集的平衡。
ReST 可以在内部循环中使用不同的离线 RL 目标:ReST 是一种通用方法,可以在内部循环中使用任何离线 RL 目标,例如 DPO(直接偏好优化)、BCQ(批处理约束 Q 学习)或 CQL(保守 Q 学习)。研究人员在几项任务上比较了这些目标,发现DPO在大多数情况下表现最佳。
ReST是一种使用不断增长的批量RL使LLM与人类偏好保持一致的新方法。与现有的RLHF方法相比,ReST具有几个优势,例如计算效率,数据质量和奖励黑客的鲁棒性((Robustness))。
ReST可以提高LLM在各种任务上的性能和安全性。。ReST可以提升语言模型在诸如机器翻译、摘要生成或对话生成等任务上的性能和安全性。同时,ReST也很简单易实现,只需要能对模型进行采样和评分即可。
ReST简单易行。ReST 几乎没有需要调整的超参数,并且简单可靠。ReST 只需要能够从模型中采样并对其要实现的样本进行评分。
郭明錤:苹果已为下个月的首款头显发布「做好充分准备」
最近的报道一致认为,苹果将在6月的WWDC上展示其传闻已久的AR/VR头戴式设备,现在郭明錤的最新预测也支持这些传闻,这位行业分析师声称,该传闻「极有可能」,苹果公司已经「做好了充分准备」。此前,郭明錤表示,苹果已经将头戴式设备的生产推迟到2023年第三季度,因此,该设备可能不会在WWDC上推出,但是他现在似乎不再持有这种观点。站长网2023-05-16 11:09:470000消息称苹果公司发明iPhone屏幕和Touch ID的高管将离职
**划重点:**1.🕵️♂️苹果公司高级执行官、负责iPhone触摸屏技术、健康传感器和FaceID界面的史蒂夫·霍特林即将离职。2.📱霍特林在苹果工作期间主导了iPhone、iPad、AppleWatch等设备的重要技术,同时是iPhone和iPad的多点触控屏幕以及TouchID指纹识别技术的发明者之一。0000微软做广告,为什么有“钱途”?
广告从来都不是微软的主要营收来源,微软财报里也没把广告业务单拎出来,而是计入了各主营业务板块一并核算。不能说微软看不上广告收入,主要还是它的主营业务太赚了。微软的营收主要来自三个部分,分别是生产效率&业务流程相关(软件)、智能云(Azure)、个人计算(智能硬件)。根据微软最新一季财报,2023Q3微软搜索和新闻广告收入为61亿美元,仅占三季度总营收565亿美元的10.8%。0000谷歌股价上周上涨了10% 受益于云服务、广告和人工智能预期
上周,谷歌母公司Alphabet公司公布了第二季度的财报,显示了在艰难的广告市场中仍然保持增长,股价随之上涨了10%。截至周五收盘时,这家谷歌的母公司的股价达到了132.58美元,创下了一年多以来的最高收盘价。谷歌今年面临了很多关于其核心搜索业务健康状况的质疑,原因是数字广告市场低迷,以及人工智能聊天机器人有可能抢走流量的长期潜力。站长网2023-07-31 09:16:440002