20步内越狱任意大模型,更多“奶奶漏洞”全自动发现
1分钟不到、20步以内“越狱”任意大模型,绕过安全限制!
而且不必知道模型内部细节——
只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
听说曾经红极一时的“奶奶漏洞”已经被修复了:
那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?
一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。
关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。
无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama2变种)、PaLM-2等,一个都跑不掉。
成功率可达60-100%,拿下新SOTA。
话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。
如今轮到AI来破解AI了。
让大模型集体越狱
目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;
另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。
△左提示攻击,右token攻击
宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。
PAIR涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。
具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。
核心思路是让两个模型相互对抗、你来我往地交流。
攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。
如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。
这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。
此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。
研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。
PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。
GPT-4也没能逃过
实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。
结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。
闭源模型中,GPT-3.5和GPT-4越狱成功率在60%左右,平均用了不到20步。在PaLM-2上成功率达到72%,步数约为15步。
但是PAIR在Llama-2和Claude上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。
他们还比较了不同目标模型的可转移性。结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。
研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。
就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。
大模型针对语义攻击的安全防御机制还有待完善。
论文链接:https://arxiv.org/abs/2310.08419
参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20
央视新闻启动鸿蒙原生应用开发 余承东亲临现场
在央视新闻新媒体2024年创新节目片单发布会上,央视新闻客户端宣布推出全新的10.0版本,并计划发布鸿蒙原生应用,进一步拓宽其技术边界和应用场景。此次发布会上,华为消费者业务CEO余承东亲临现场,为鸿蒙系统站台,并阐述了鸿蒙系统如何为产业带来新机遇。余承东强调,鸿蒙系统已拥有全栈自研技术,其内核超越了传统系统,更适应全场景设备的多样化需求。站长网2024-02-07 14:03:110000魅族21系列5款机型曝光 最低1599元起
魅族公司于10月4日最新曝光了5款新机型号,包括魅族21和魅族21Pro两款。其中3款为国行系列,2款尚未确认其是否为海外版本或其他型号。据此前消息,“数码闲聊站”透露,魅族21系列将采用高通最新移动平台骁龙8Gen3,并延续前代的极简设计。预计该系列将搭配直屏设计,而Pro版本有望首次采用潜望式长焦摄像头。站长网2023-10-04 15:39:450000对话千万GMV视频号玩家:商业化进入2.0时代,商家疯抢公域流量
“自8月视频号发布新规‘直播间、首页、短视频置顶链接不能加企微’,相对收紧公私域联通通道后,视频号就已经进入商业化2.0时代。”或许是因为身兼千万GMV知识博主、卖货主播和亿级服务商、MCN主理人等多重身份,又是产品经理出身,润宇更习惯从流量角度看待视频号。在他看来,8月新规之前,视频号是以私域流量为核心的商业化1.0时代,8月新规之后,视频号将进入以公域流量为核心的商业化2.0时代。站长网2023-09-25 22:09:570000餐饮生存战:平价消费时代,别盲目卷低价
最近「定焦One」发布了一篇文章《“3元管饱”,平价快餐店卷起来了》,引发很多消费者和餐饮人共鸣,多位消费者留言分享自己的“省钱妙招”和“私藏宝店”,餐饮人则表示也注意到行业已经进入平价时代,准备主动出击,抓住这一波消费趋势。针对这些反馈,「定焦One」再次和多位餐饮从业者进行了深入交流,希望更加全面的呈现当前的餐饮现状,以及平价时代存在的转型机会,给更多餐饮人参考和借鉴。0000国内用户无缘!iOS 17将支持三方应用商店或仅限欧洲:苹果准备收费
快科技4月22日讯,去年11月,欧盟颁布了数字市场法案,其中要求苹果设备要允许安装非AppStore的应用软件,按计划,法案将于2024年3月生效实施。此前,有分析师指出,苹果最快将于6月份发布的iOS17上首次带来对第三方应用商店的支持。不过,名记MarkGurman随后进一步指出,苹果将仅允许在欧盟市场开放该服务,预计中国、美国地区暂时无缘。0001