20步内越狱任意大模型，更多“奶奶漏洞”全自动发现

站长网2023-11-07 09:21:456阅

1分钟不到、20步以内“越狱”任意大模型，绕过安全限制!

而且不必知道模型内部细节——

只需要两个黑盒模型互动，就能让AI全自动攻陷AI，说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”，AI又该如何应对?

一波猛攻下来，GPT-4也遭不住，直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞，而用上他们最新开发的算法，AI可以自动生成各种攻击提示。

研究人员表示，这种方法相比于现有的GCG等基于token的攻击方法，效率提高了5个量级。而且生成的攻击可解释性强，谁都能看懂，还能迁移到其它模型。

无论是开源模型还是闭源模型，GPT-3.5、GPT-4、 Vicuna（Llama2变种）、PaLM-2等，一个都跑不掉。

成功率可达60-100%，拿下新SOTA。

话说，这种对话模式好像有些似曾相识。多年前的初代AI，20个问题之内就能破解人类脑中想的是什么对象。

如今轮到AI来破解AI了。

让大模型集体越狱

目前主流越狱攻击方法有两类，一种是提示级攻击，一般需要人工策划，而且不可扩展;

另一种是基于token的攻击，有的需要超十万次对话，且需要访问模型内部，还包含“乱码”不可解释。

△左提示攻击，右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工参与，是一种全自动提示攻击方法。

PAIR涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说，攻击模型需要自动生成语义级别的提示，来攻破目标模型的安全防线，迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示，然后输入到目标模型中，得到目标模型的回复。

如果这次回复没有成功攻破目标模型，那么攻击模型会分析这次失败的原因，改进并生成一个新的提示，再输入到目标模型中。

这样持续交流多轮，攻击模型每次根据上一次的结果来迭代优化提示，直到生成一个成功的提示将目标模型攻破。

此外，迭代过程还可以并行，也就是可以同时运行多个对话，从而产生多个候选越狱提示，进一步提高了效率。

研究人员表示，由于两个模型都是黑盒模型，所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数，只需要API即可，因此适用范围非常广。

GPT-4也没能逃过

实验阶段，研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集，在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%，平均不到12步就能攻破。

闭源模型中，GPT-3.5和GPT-4越狱成功率在60%左右，平均用了不到20步。在PaLM-2上成功率达到72%，步数约为15步。

但是PAIR在Llama-2和Claude上的效果较差，研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示，PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。

研究人员认为，PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷，而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队，将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后，相关模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20

20步内越狱任意大模型更多 奶奶漏洞全自动发现

0006

评论列表

共(0)条

相关推荐

站长资讯
对年轻人来说，种地是一个好职业吗？
如果失去阳光，失去土壤，失去雨露，人类还能种好菜吗?普通人有疑问，农业研究者们则在用行动验证。2023年2月底，四支背景各异的研究团队齐聚上海崇明岛，进驻四个标准集装箱——他们要在3个多月的时间里，自主控温、控光、控肥，探索植物生长的极限。这是第三届多多农研科技大赛决赛给出的“命题作文”。
站长网2023-06-30 23:54:23
0002
站长资讯
微信正式推出视频号青少年内容分级可定向获取内容推荐
站长之家（ChinaZ.com）5月28日消息:微信官方近日宣布，为更好地满足青少年用户的需求，特别推出了四个量身定制的微信功能。这些功能不仅让青少年用户能够在网络世界中保持自律，也为中年用户提供了全新的管理视角。家有青少年的家长们，更是不能错过这一重要更新。
站长网2024-05-28 19:35:41
0000
站长资讯
麦当劳对讲机玩具爆火：App一度崩了很多人都在抢
5月25日消息，据国内多家媒体报道，因为一个六一儿童节的定制玩具对讲机，麦当劳APP又经受了一波大流量的考验。近日，因麦当劳对讲机活动火爆，麦当劳App一度出现宕机，部分点餐功能受影响，目前已经恢复。据了解，每到六一儿童节，麦当劳、肯德基通常都会推出玩具，比如去年六一时候，下单麦当劳可获得俄罗斯方块游戏机一个，全国限量40万个，活动上线后迅速引发关注，游戏机闪电售罄。
站长网2024-05-27 09:58:16
0000
站长资讯
知识内容井喷，为什么我们比以前更焦虑了？
“鉴定一下网络热门生物视频。”在无穷小亮飞快的语速下，“亮记生物鉴定”系列科普视频终于迎来更新，弹幕评论里一片惊喜。这是他从图文科普博主转型到视频创作者的第四年，也正是从2019年开始，深度内容重获网民的喜爱。乘着实用主义与短视频的旋风，知识正式进入了视频时代。
站长网2023-08-28 09:14:07
0000
站长资讯
比亚迪为“宾利打人事件”劝架者奖励20万送终身免费维修保养
在深圳总部，比亚迪近日举行了一场特殊的颁奖仪式，旨在表彰在“宾利打人事件”中勇敢站出来的车主——孙子见律师。这位车主的见义勇为行为，赢得了比亚迪品牌及公关处总经理李云飞的高度赞赏。李云飞亲自为孙律师颁发了税后20万元的奖金，并赠送了一张终身免费维修保养卡。这一举动不仅是对孙律师个人英勇行为的肯定，也体现了比亚迪对车主见义勇为行为的支持和鼓励。
站长网2024-04-06 14:16:12
0000