20步内越狱任意大模型！更多“奶奶漏洞”全自动发现

站长网2023-11-06 09:14:582阅

1分钟不到、20步以内“越狱”任意大模型，绕过安全限制!

而且不必知道模型内部细节——

只需要两个黑盒模型互动，就能让AI全自动攻陷AI，说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”，AI又该如何应对?

一波猛攻下来，GPT-4也遭不住，直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞，而用上他们最新开发的算法，AI可以自动生成各种攻击提示。

研究人员表示，这种方法相比于现有的GCG等基于token的攻击方法，效率提高了5个量级。而且生成的攻击可解释性强，谁都能看懂，还能迁移到其它模型。

无论是开源模型还是闭源模型，GPT-3.5、GPT-4、 Vicuna（Llama2变种）、PaLM-2等，一个都跑不掉。

成功率可达60-100%，拿下新SOTA。

话说，这种对话模式好像有些似曾相识。多年前的初代AI，20个问题之内就能破解人类脑中想的是什么对象。

如今轮到AI来破解AI了。

让大模型集体越狱

目前主流越狱攻击方法有两类，一种是提示级攻击，一般需要人工策划，而且不可扩展;

另一种是基于token的攻击，有的需要超十万次对话，且需要访问模型内部，还包含“乱码”不可解释。

△左提示攻击，右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR（Prompt Automatic Iterative Refinement）的算法，不需要任何人工参与，是一种全自动提示攻击方法。

PAIR涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说，攻击模型需要自动生成语义级别的提示，来攻破目标模型的安全防线，迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示，然后输入到目标模型中，得到目标模型的回复。

如果这次回复没有成功攻破目标模型，那么攻击模型会分析这次失败的原因，改进并生成一个新的提示，再输入到目标模型中。

这样持续交流多轮，攻击模型每次根据上一次的结果来迭代优化提示，直到生成一个成功的提示将目标模型攻破。

此外，迭代过程还可以并行，也就是可以同时运行多个对话，从而产生多个候选越狱提示，进一步提高了效率。

研究人员表示，由于两个模型都是黑盒模型，所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数，只需要API即可，因此适用范围非常广。

GPT-4也没能逃过

实验阶段，研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集，在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%，平均不到12步就能攻破。

闭源模型中，GPT-3.5和GPT-4越狱成功率在60%左右，平均用了不到20步。在PaLM-2上成功率达到72%，步数约为15步。

但是PAIR在Llama-2和Claude上的效果较差，研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示，PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。

研究人员认为，PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷，而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队，将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后，相关模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20

20步内越狱任意大模型更多 奶奶漏洞全自动发现

0002

评论列表

共(0)条

相关推荐

站长资讯
最「卷」的618，9块9和1元购成主角
日历已经撕去一半的618，呈现出不同的变化。淘宝天猫的戴珊，京东的许冉，抖音的魏雯雯和拼多多的阿布这4位女性掌门首次正面交锋，但本应激烈的战场却显得有些静悄悄:在预售阶段迎来了开门红的平台们并没有和往年一样大张旗鼓地宣传耀眼的GMV（平台交易额），社交平台也很少讨论各位超头主播的成绩。
站长网2023-06-12 17:13:03
0000
站长资讯
谷歌大杀器终于来了，最大规模Gemini震撼发布：真超GPT4，三大版本，手机直接可用
时代变了?迄今为止规模最大，能力最强的谷歌大模型来了。当地时间12月6日，谷歌CEO桑达尔・皮查伊官宣Gemini1.0版正式上线。这次发布的Gemini大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级:能力最强的GeminiUltra，适用于多任务的GeminiPro以及适用于特定任务和端侧的GeminiNano。
站长网2023-12-07 09:14:29
0000
站长资讯
Runway更新Multi-Motion Brush运动笔刷功能可同时控制5个物体运动路径
Runway更新了Multi-MotionBrush运动笔刷功能。这是Gen-2MotionBrush的一个新版本，目前处于早期测试阶段。用户可以在输入图像中选择多达5个不同的主题或区域，来分别控制它们的运动。
站长网2024-01-18 11:31:10
0000
站长资讯
雷军的新造型引热议：戴朋克项链太酷了
小米CEO雷军将于7月19日晚7点带来他第五次的年度演讲，今年演讲的主题定为《勇气》，届时雷军将分享小米造车历程的全貌以及过去三年多的起伏故事。在为此次演讲预热的海报和视频中，雷军以全新的造型亮相，引发了网友的广泛讨论。与他以往的休闲装扮不同，雷军此次选择了工装风格的衬衫，并佩戴了一条朋克风格的项链，展现出了一种更加硬朗的形象，与他以往的风格形成了鲜明对比。
站长网2024-07-16 14:53:15
0004
站长资讯
大学教授「偷用」ChatGPT帮学生写推荐信，成功斩获剑桥奖学金
虽然高校对ChatGPT的禁令逐渐放松，教授们也开始用ChatGPT提升工作效率，不过用AI辅助工作还是一个不能公开的秘密。ChatGPT在教育界毁誉参半，老师认为AI让自己留的作业变得毫无意义，而学生则认为本来那些也是毫无意义的作业，倒不如让AI写来节省时间。不过最近事情可能出现了反转，只不过故事的主角从「学生作弊」转到了「教授提升工作效率」。
站长网2023-05-11 11:47:32
0000