英伟达开源大模型对齐框架—NeMo-Aligner
随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多,为了确保输出的内容安全、可靠,对齐成为开发人员的关注重点和难点。
但现在的模型参数少则几百亿多则上千亿,想通过传统的监督式微调方法来完成对齐效果往往不理想。
因此,英伟达的研究人员开源了安全对齐框架NeMo-Aligner。这是一个包括人类反馈进行强化学习(RLHF)、直接偏好优化(DPO)、SteerLM和自我对弈微调等技术合集,可帮助开发人员极大提升模型的安全性能和稳定输出。
开源地址:https://github.com/nvidia/nemo-aligner
论文地址:https://arxiv.org/abs/2405.01481v1

下面为大家介绍两个效果比较好、常用的NeMo-Aligner对齐方法。
RLHF
RLHF是NeMo-Aligner框架的核心模块之一,主要通过人类反馈来引导大模型学习,使其输出更符合人类的价值观和偏好,同时采用了近端策略算法(PPO)来优化语言模型的行为。

训练过程主要分为三个阶段:初始阶段,从预训练的基础模型开始,进行监督微调。在监督微调中,使用输入提示和期望的回复对基础模型的参数进行更新,使其尽可能地模仿期望的回复。这一阶段是为了确保基础模型能够生成符合用户指令的回复。
奖励模型训练阶段,使用一组设定好的人类偏好数据,例如,问答的特定输出格式,来训练一个奖励模型,以最大化预测奖励与人类偏好一致的可能性。通常,会在监督微调的模型之上初始化一个线性奖励模型头部,并在其上进行训练。

策略优化训练,基于训练好的奖励模型,通过PPO进行优化训练。在训练过程中,使用基于KL散度的正则化项,防止策略偏离起始点太远并利用奖励模型的盲点。
SteerLM
SteerLM主要通过引导大模型的生成流程来实现安全对齐,使用了一种“引导信号”的指导策略。可将开发者希望的输出模式注入到模型的训练中,以引导模型生成更符合预期的响应。
首先,需要准备一个包含输入提示和期望输出的数据集对。这些输入提示可以是用户提供的指令或问题,而期望输出是模型生成的响应。

根据输入提示和期望输出,生成引导信号。引导信号可以采用不同的方式生成,例如,使用规则、基于规则的策略或者其他的启发式方法,可以控制生成文本的风格、主题、情感等内容。
例如,在多轮AI对话中,可以指导模型生成符合用户期望的回答;在文本摘要任务中,可以指导模型生成更加准确和有信息量的摘要内容;在机器翻译任务中,可以使模型生成更加准确和流畅的翻译结果。
1999元 全球首款妈祖平安智能手表发布:搭载华为智能机芯
快科技1月3日消息,日前,在2025年湄洲妈祖祖庙跨年祈福盛典上,全球首款妈祖平安智能腕表发布,手表搭载华为智能机芯,售价1999元。据媒体报道,每售出一只妈祖平安智能腕表,即捐献给湄洲妈祖祖庙10元爱心善款,用于助力妈祖文化传承。ID设计上,妈祖平安智能腕表融入妈祖文化元素,表圈一侧印有湄洲妈祖”印记,并且提供妈祖石雕像、卡通妈祖等图案的表盘,实现抬腕见妈祖”。站长网2025-01-04 10:27:090000比特币突破4万美元,创下自2022年5月以来新高
**划重点:**1.📉美联储降息期望和交易所交易基金(ETFs)需求增加推动比特币2023年反弹。2.📈比特币价格涨至40,867美元,2023年涨幅达到146%。3.💼投资者期待美国允许现货比特币ETFs,加密货币行业迎来成熟趋势,但仍存在一些潜在风险。站长网2023-12-04 12:12:380000华为阅读月活跃用户突破1亿华为阅读月活跃用户
4月20日,华为阅读在北京举办了媒体沟通会。会上,华为互动媒体军团CEO、华为终端云服务互动媒体BU总裁吴昊分享了华为阅读最新生态及业务进展。截至目前,华为阅读月活用户已经超过1亿,并且覆盖了全球超过170个国家和地区,与多家出版机构合作共建精品阅读,提供40多种品类的百万精品图书资源和180万的有声内容。站长网2023-04-20 21:34:070000微软创新项目Project Rumi:多模态AI项目助力理解人类意图
ProjectRumi是微软的一个项目,旨在通过解决大型语言模型(LLM)理解非语言线索和上下文细微差别的局限性,增强LLM的能力。站长网2023-08-07 09:57:5100005年0息!特斯拉Model 3/Y免息政策再次延长
快科技8月26日消息,特斯拉官方近日宣布,原定于8月31日截止的5年0息金融方案将延长至9月30日。据悉,该政策适用于Model3后轮驱动版、长续航全轮驱动版以及ModelY后轮驱动版和长续航全轮驱动版。消费者在9月30日前下订上述车型均可享受该金融方案。站长网2024-08-27 12:29:180000