LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法
文章概要:
1. 大型语言模型(LLM),如GPT-3,通过自我评估和改进方法(RAIN)能够满足人类需求,无需额外数据和微调。
2. RAIN方法具备广泛适用性,适用于多种语言生成任务,无需额外模型或数据存储,且无需依赖标记数据或训练。
3. RAIN通过自我评估提高LLM的性能,降低对敌对攻击的成功率,为AI生成更协调和安全的响应。
研究表明,大型预训练语言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人类提出的问题,协助编码工作等。然而,它们常常生成与人类偏好不同的结果。
过去,研究人员试图通过收集有关人类偏好的信息来解决这个问题,然后通过使用强化学习或指令调整来调整先前训练的模型,从而需要一个微调阶段。调整冻结的LLM(尚未接受额外训练且不需要额外数据)更具吸引力。
图源备注:图片由AI生成,图片授权服务商Midjourney
最近,一组研究人员发现,未对齐的LLM可以通过包括自我评估和回溯机制的自我改进过程直接生成与人类偏好匹配的回复。出于AI安全性的考虑,他们引入了可回滚自动回归推理(RAIN),这是一种独特的推理技术,使预训练的LLM能够评估其自动生成的文本,并使用评估结果来指导向后倒带和向前生成。
RAIN以其无需进一步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型通过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的指导,从而省去了反复调整初始查询的需求。
实验结果由GPT-4模型和人工评估员评估,体现了了RAIN的成功。例如,使用HH数据集,RAIN在保持LLaMA30B的有用性率不变的同时,与普通推理相比将其无害性率从82%提高到97%。
该团队表示,当 Vicuna33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时,RAIN 甚至通过将攻击成功率从94% 降低到19% 建立了新的防御基准。
RAIN在对齐大型语言模型(LLM)方面具有许多优势:
- 通用性:RAIN方法具有广泛的适用性,适用于各种语言生成任务。它与自回归推理范式完美契合,这是许多LLM的常规范式。这意味着RAIN高度可定制且用户友好,可以快速集成到大多数现有LLM中。
- 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络,与一些其他对齐策略(如RLHF)相比,其产生的最低内存开销与简单自回归推理相当。由于其简单的实现和高效的内存设计,RAIN是对齐冻结权重的LLM的现实选择,消除了资源密集型的微调过程。
- 无需学习:RAIN不依赖于任何类型的标记或未标记数据,也不依赖于人类注释。它以无需学习的方式运作,不需要大量信息或培训,因此在各种任务中显著提高了对齐性能,并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时,RAIN显著降低了攻击成功率,展示了其作为防御措施的潜力。
这项研究引入了RAIN作为一种调整LLM以满足人类偏好的技术,无需额外信息或繁琐的微调。这是通过允许LLM评估和改进其自身输出来实现的,最终产生更协调和安全的AI生成响应。
论文网址:https://arxiv.org/abs/2309.07124
思科调查:印度仅有26% 的组织准备好部署人工智能
划重点:🔍只有26%的印度组织完全准备好部署和利用人工智能技术。🔍在印度,32%的公司被认为是"落后者"(未准备好)或"追随者"(准备有限)。🔍95%的印度企业认为他们最多只有一年的时间来实施人工智能战略,否则将会遭受严重的负面影响。站长网2023-11-17 18:12:190000深扒Altman巨型AI帝国:从核聚变工厂到永生技术中心,规模惊人!
【新智元导读】SamAltman构建的未来AI帝国正式曝光,规模惊人!可控核聚变、7万亿芯片产业、光量子计算,甚至是延长人类寿命的研究,个个都是「登月级」。同时,OpenAI董事会风波又有了新的爆料,ChatGPT之母竟扮演了重要角色。从可控核聚变到AGI,再到重塑整个芯片行业,Altman未来的AI版图已经不仅仅是成立科技公司挣更多的钱了。站长网2024-03-09 18:00:190001如何选择一个利于SEO优化的网站空间?
1.空间的性质空间的性质只有两种:备案和不备案备案空间备案的空间是国内的主机空间,必须在网信办与网管局处进行登记入册进入公安网备系统,申请通过以后你才能使用。虽然这个备案的流程特别繁琐,但这是必要监督和管理。优点:数据请求速度快,用户访问体验好。缺点:备案的时间与要求各地区不同。站长网2020-08-18 10:33:2800010特斯拉中国推新版高级车载娱乐服务包:34.99元/月 包含爱奇艺黄金VIP
快科技1月30日消息,特斯拉APP在国内推出高级车载娱乐服务包(爱奇艺黄金VIP会员版),34.99元/月,包含高级车载娱乐服务包”和爱奇艺黄金VIP会员”。高级车载娱乐服务包内容:车载导航、可视化实时路况显示、卫星地图、通过车载应用播放网络音乐和视频、车载KTV应用、线上游戏、互联网浏览器等。据悉,特斯拉的车辆在2022年7月21日后订购,自交付日后起8年内可免费使用标准车载娱乐服务包”。站长网2024-01-30 15:16:190000看片不怕没字幕!小米宣布小爱翻译实时字幕上线日韩语翻译
快科技7月22日消息,今日,小米澎湃OS官微宣布小爱翻译迎来升级,实时字幕新增日韩语翻译,无字幕视频、直播会议实时转录翻译。面对面同声传译支持12种语言互译,包括中文、英语、日语、韩语、俄语、葡萄牙语、西班牙语、意大利语、法语、德语、印尼语、印地语。以上功能目前仅支持小米MIXFold4、小米MIXFlip、RedmiK70至尊版三款新机。站长网2024-07-22 17:41:510000