谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练
效果更稳定,实现更简单。
大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。
来自卡内基梅隆大学(CMU)和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Optimization,SPO)。该方法消除了奖励模型,并且不需要对抗性训练。
论文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
论文地址:https://arxiv.org/abs/2401.04056
方法简介
SPO 方法主要包括两个方面。首先,该研究通过将 RLHF 构建为两者零和博弈(zero-sum game),真正消除了奖励模型,从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次,通过利用博弈的对称性,该研究证明可以简单地以自我博弈的方式训练单个智能体,从而消除了不稳定对抗训练的需要。
实际上,这相当于从智能体中采样多个轨迹,要求评估者或偏好模型比较每对轨迹,并将奖励设置为轨迹的获胜率。
SPO 避免了奖励建模、复合 error 和对抗性训练。通过从社会选择理论(social choice theory)中建立最小最大获胜者的概念,该研究将 RLHF 构建为两者零和博弈,并利用该博弈支付矩阵的对称性来证明可以简单地训练单个智能体来对抗其自身。
该研究还分析了 SPO 的收敛特性,并证明在潜在奖励函数确实存在的情况下,SPO 能以与标准方法相媲美的快速速度收敛到最优策略。
实验
该研究在一系列具有现实偏好函数的连续控制任务上,证明了 SPO 比基于奖励模型的方法性能更好。SPO 在各种偏好设置中能够比基于奖励模型的方法更有效地学习样本,如下图2所示。
该研究从多个维度将 SPO 与迭代奖励建模 (RM) 方法进行比较,旨在回答4个问题:
当面 intransitive 偏好时,SPO 能否计算 MW?
在具有独特 Copeland Winners / 最优策略的问题上,SPO 能否匹配或超过 RM 样本效率?
SPO 对随机偏好的稳健性如何?
SPO 可以处理非马尔可夫偏好吗?
在最大奖励偏好、噪声偏好、非马尔可夫偏好方面,该研究的实验结果分别如下图6、7、8所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
2023年全球100+值得关注的顶级人工智能公司
站长之家注:人工智能领域正进入爆发式增长阶段。自ChatGPT于2022年11月惊艳亮相,仅几个月内就吸引了1亿用户。随之而来的是,各国企业开始意识到人工智能的巨大潜力,尤其是生成式人工智能,并推出了人工智能大模型产品。站长网2023-07-15 11:19:000002AI视野:OpenAI否认即将发布GPT-4.5;Stability AI推出新会员模式;DomoAI支持视频一键转动漫;阿里I2VGen-XL模型代码公布
📰🤖📢AI新鲜事OpenAI否认即将发布GPT-4.5OpenAICEOSamAltman在Reddit上辟谣称公司未计划发布GPT-4.5,否认最新语言模型的泄露,截图显示为虚假信息。【AiBase提要】:👥OpenAICEOSamAltman否认GPT-4.5泄露,证实截图为假信息。📅尚不清楚OpenAI是否会发布GPT-4.5,或者直接跳至GPT-5。站长网2023-12-15 15:35:540000OPPO Reno11系列即将发布 Pro搭载骁龙8
博主“数码闲聊站”曝光了OPPOReno11系列的参数信息。据爆料,OPPOReno11系列将推出两个版本:Reno11和Reno11Pro。标准版将搭载天玑8200处理器,而Pro版则采用骁龙8搭配1.5K曲屏组合。全系机型将会配备IMX7092X直立长焦摄像头。站长网2023-11-10 11:18:030001有人涨粉至千万,有人悄悄落寞,B站百大UP主逐渐两极分化
在卷到飞起的美食赛道,创作者为了获取用户的关注,用各式各样的内容吸引用户的注意力,吃播、探店Vlog、美食制作教程、美食测评等内容形式层出不穷。同时为了保持自身的热度,不少创作者维持着较高的更新频率,甚至有的UP主能做到日更。站长网2023-07-24 17:15:300000AI视野:Gemini即将登陆Pixel8Pro;GPT商店将于第一季度推出;聊天机器人Grok登陆X;阿里夸克大模型通过备案
📰🤖📢AI新鲜事谷歌GeminiAI模型即将登陆Pixel8Pro谷歌宣布GeminiAI模型首次亮相Pixel8Pro,旨在提升设备智能、加速反应速度,将逐步覆盖整个Android生态系统。【AiBase提要:】🚀谷歌GeminiAI模型将首次登陆Pixel8Pro,推动设备智能革新。💡GeminiNano是本地优先版本,加速反应速度,无需互联网连接。站长网2023-12-08 16:07:390000