英伟达开源大模型对齐框架—NeMo-Aligner
随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多,为了确保输出的内容安全、可靠,对齐成为开发人员的关注重点和难点。
但现在的模型参数少则几百亿多则上千亿,想通过传统的监督式微调方法来完成对齐效果往往不理想。
因此,英伟达的研究人员开源了安全对齐框架NeMo-Aligner。这是一个包括人类反馈进行强化学习(RLHF)、直接偏好优化(DPO)、SteerLM和自我对弈微调等技术合集,可帮助开发人员极大提升模型的安全性能和稳定输出。
开源地址:https://github.com/nvidia/nemo-aligner
论文地址:https://arxiv.org/abs/2405.01481v1
![](https://i.zz5.net/images/article/2024/05/13/093530961.jpg)
下面为大家介绍两个效果比较好、常用的NeMo-Aligner对齐方法。
RLHF
RLHF是NeMo-Aligner框架的核心模块之一,主要通过人类反馈来引导大模型学习,使其输出更符合人类的价值观和偏好,同时采用了近端策略算法(PPO)来优化语言模型的行为。
![](https://i.zz5.net/images/article/2024/05/13/093530976.jpg)
训练过程主要分为三个阶段:初始阶段,从预训练的基础模型开始,进行监督微调。在监督微调中,使用输入提示和期望的回复对基础模型的参数进行更新,使其尽可能地模仿期望的回复。这一阶段是为了确保基础模型能够生成符合用户指令的回复。
奖励模型训练阶段,使用一组设定好的人类偏好数据,例如,问答的特定输出格式,来训练一个奖励模型,以最大化预测奖励与人类偏好一致的可能性。通常,会在监督微调的模型之上初始化一个线性奖励模型头部,并在其上进行训练。
![](https://i.zz5.net/images/article/2024/05/13/093530977.jpg)
策略优化训练,基于训练好的奖励模型,通过PPO进行优化训练。在训练过程中,使用基于KL散度的正则化项,防止策略偏离起始点太远并利用奖励模型的盲点。
SteerLM
SteerLM主要通过引导大模型的生成流程来实现安全对齐,使用了一种“引导信号”的指导策略。可将开发者希望的输出模式注入到模型的训练中,以引导模型生成更符合预期的响应。
首先,需要准备一个包含输入提示和期望输出的数据集对。这些输入提示可以是用户提供的指令或问题,而期望输出是模型生成的响应。
![](https://i.zz5.net/images/article/2024/05/13/093530992.jpg)
根据输入提示和期望输出,生成引导信号。引导信号可以采用不同的方式生成,例如,使用规则、基于规则的策略或者其他的启发式方法,可以控制生成文本的风格、主题、情感等内容。
例如,在多轮AI对话中,可以指导模型生成符合用户期望的回答;在文本摘要任务中,可以指导模型生成更加准确和有信息量的摘要内容;在机器翻译任务中,可以使模型生成更加准确和流畅的翻译结果。
曝iPhone 16全系电池壳将换成不锈钢!可提升电池寿命
快科技5月5日消息,据媒体报道,iPhone16系列所搭载的电池外壳将从铝塑膜替换成不锈钢,材料由中国供应商提供。报道称全钢外壳将采用激光焊工艺,能提升电池使用寿命,主要是增加循环次数。根据此前的爆料,iPhone16电池容量为3561mAh、iPhone16Plus为4006mAh、iPhone16ProMax为4676mAh。0000爱奇艺龚宇:AIGC加速应用 长视频行业将被颠覆
在2023年的爱奇艺悦享会上,爱奇艺的创始人和CEO龚宇强调,爱奇艺未来的发展主要依赖于两个关键因素:内容和科技创新。他表示,这两个方面不仅决定了爱奇艺的未来,也决定了整个行业的未来。站长网2023-09-21 17:20:420000百度搜索资源平台发布视频封面进阶要求
昨日,百度搜索资源平台发布了视频封面进阶要求,称创作者需要通过色彩的搭配,文字的排版设计等,展现封面制作的精良感和美感,第一时间抓住用户眼球,提升用户对内容的兴趣度。以下为具体规范:一,丰富画面信息量创作者可以有效利用文字的排版设计,在封面上加入文字,能够让用户了解视频的内容主体,增加文字的设计也会很大程度会更抓人眼球。站长网2023-05-12 09:23:500000博客网站Medium禁止完全由AI生成的内容 需标记AI生成部分
本文概要:-Medium.com宣布禁止发布100%AI生成的内容,称其为“人类写作的家园”-AI生成的文本必须在Medium上进行标注,否则不会被展示-Medium仍允许用户在自己的博客上进行AI内容的实验国外知名博客门户网站Medium.com最近宣布,他们将禁止100%由人工智能(AI)生成内容的发布,坚称平台为“人类写作的家园”。站长网2023-08-03 09:49:380000Deepmind创始人提出一种新的图灵测试:看AI能否将10万美元变成100万美元
DeepMind的联合创始人MustafaSuleyman在即将出版的书中《即将到来的浪潮:技术、权力和21世纪最大的困境》指出图灵测试已经过,他提出了一个新的基准,称之为"人工智能可行性"(ACI),用来衡量AI独立执行复杂任务的能力。站长网2023-06-21 16:47:490000