首页站长资讯提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

站长网2024-07-21 06:32:040阅

只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。

而且对GPT-4o尤其有效，原本只有1%的攻击成功率直接飙到88%，几乎是“有求必应”。

有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。

来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。

而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。

只要把请求中的时间改成过去，就能让GPT-4o把燃烧弹和毒品的配方和盘托出。

而且量子位实测发现，把提示词改成中文，对GPT-4o也一样有效。

有网友表示，实在是想不到突破大模型漏洞的方式竟然如此简单……

当然这样的结果也说明，现有的大模型安全措施还是太脆弱了。

GPT-4o最易“破防”

实验过程中，作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为，涉及了OpenAI策略中的10个危害类别。

然后作者用GPT-3.5Turbo，把把这些有害请求对应的时间改写成过去。

接着就是用这些修改后的请求去测试大模型，然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

被测试的模型则包括Llama-3、GPT-3.5Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2（一种对抗性训练方法）这六种。

结果显示，GPT-4o的越狱成功率提升最为明显，在使用GPT-4和Llama-3进行判断时，原始成功率均只有1%，使用这种攻击的成功率则上升到了88%和65%，启发式判断器给出的成功率也从13%升到了73%。

其他模型的攻击成功率也提高不少，尤其是在使用GPT-4判断时，除了Llama-3，其余模型的成功率增长值都超过了70个百分点，其他的判断方法给出的数值相对较小，不过都呈现出了增长趋势。

对于Llama-3的攻击效果则相对稍弱一些，但成功率也是增加了。

另外随着攻击次数的增加，成功率也是越来越高，特别是GPT-4o，在第一次攻击时就有超过一半的成功率。

不过当攻击次数达到10次后，对各模型的攻击成功率增长都开始放缓，然后逐渐趋于平稳。

值得一提的是，Llama-3在经历了20次攻击之后，成功率依然不到30%，相比其他模型体现出了很强的鲁棒性。

同时从图中也不能看出，不同判断方法给出的具体成功率值虽有一定差距，但整体趋势比较一致。

另外，针对10类不同的危害行为，作者也发现了其间存在攻击成功率的差别。

不看Llama-3这个“清流”的话，恶意软件/黑客、经济危害等类型的攻击成功率相对较高，错误信息、色情内容等则较难进行攻击。

当请求包含一些与特定事件或实体直接相关的关键词时，攻击成功率会更低;而请求偏向于通识内容时更容易成功。

基于这些发现，作者又产生了一个新的疑问——既然改成过去有用，那么改写成将来是不是也有用呢?

进一步实验表明，确实也有一定用处，不过相比于过去来说，将来时间的效果就没有那么明显了。

以GPT-4o为例，换成过去后接近90个百分点的增长，再换成将来就只有60了。

对于这样的结果，网友们除了有些惊讶之外，还有人指出为什么不测试Claude。

作者回应称，不是不想测，而是免费API用完了，下一个版本会加上。

不过有网友自己动手试了试，发现这种攻击并没有奏效，即使后面追问说是出于学术目的，模型依然是拒绝回答。

△来源:Twitter/Muratcan Koylan

这篇论文的作者也承认，Claude相比于其他模型会更难攻击，但他认为用复杂些的提示词也能实现。

因为Claude在拒绝回答时非常喜欢用“I apologize”开头，所以作者要求模型不要用“I”来开头。

不过量子位测试发现，这个方法也未能奏效，无论是Claude3Opus还是3.5Sonnet，都依然拒绝回答这个问题。

△左:3Opus，右:3.5Sonnet

还有人表示，自己对Claude3Haiku进行了一下测试（样本量未说明），结果成功率为0。

总的来说，作者表示，虽然这样的越狱方式比不上对抗性提示等复杂方法，但明显更简单有效，可作为探测语言模型泛化能力的工具。

使用拒绝数据微调或可防御

作者表示，这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术，仍然存在一定的局限性。

按照论文的观点，这可能意味着模型从训练数据中学到的拒绝能力，过于依赖于特定的语法和词汇模式，而没有真正理解请求的内在语义和意图。

这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子，可能无法从根本上解决模型的安全问题。

作者又进行了进一步实验，使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。

结果发现，只要拒绝示例在微调数据中的占比达到5%，攻击的成功率增长就变成了0。

下表中，A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话，正常对话数据来自OpenHermes-2.5。

这样的结果也说明，如果能够对潜在的攻击进行准确预判，并使用拒绝示例让模型对齐，就能有效对攻击做出防御，也就意味着在评估语言模型的安全性和对齐质量时，需要设计更全面、更细致的方案。

论文地址:

https://arxiv.org/abs/2407.11969

参考链接:

[1]https://x.com/maksym_andr/status/1813608842699079750

[2]https://x.com/MatthewBerman/status/1813719273338290328

提示词用上过去式秒破GPT4o等六大模型安全限制中文语境也好使

0000

评论列表

共(0)条

相关推荐

站长资讯
抖音入局价格战，羊毛究竟出在哪只羊身上？
近日，据公开消息，2024年抖音将把“价格力”定位为优先级最高的任务。当前的抖音商城中，“全网低价”的标签，也已然出现。继拼多多、阿里、京东之后，抖音成为了又一个将“低价”作为重要战略的平台。早在2023年，拼多多逆势崛起之时，淘宝、京东就先后打出了“低价”这张牌，而抖音的下场无疑让这场低价之争逐渐白热化。
站长网2024-03-04 21:36:47
0000
站长资讯
这家产品AI用户过亿，月活第一，覆盖学习办公和家庭教育，还有人偷偷用来赚钱
谁是AI产品风口浪尖最当红的焦点?不是有些盆友猜测的聊天Bot——在最新的AI产品榜上，百度文库才是高居榜首的那一位。显眼的排名背后，是超1.4亿的AI用户数，以及超15亿的AI新功能使用次数。AI能用它帮大忙的场景，遍布学习办公、家庭教育和兼职赚钱。——这结果硬控我5秒，百度文库，它什么时候AI味道这么浓了?
站长网2024-06-01 21:38:34
0001
站长资讯
百度推出文心大模型插件开发平台“灵境矩阵”
在今日的2023年百度联盟大会上，百度正式推出面向各类开发者的文心大模型插件开发平台“灵境矩阵”（https://plugin.baidu.com/）。“灵境矩阵”旨在为开发者提供生产赋能、分发贯通、商业共生三大核心能力。该平台将提供低成本的平台接入能力和生产力工具，帮助开发者快速打造出优质的插件产品。
站长网2023-09-13 14:50:53
0000
站长资讯
斗鱼回应在部分应用商店无法下载：未接收到下架通知
据界面新闻报道，斗鱼就App在部分应用商店无法下载的问题作出了回应称，目前未接收到下架通知，正在排查原因。此前，有网友反馈称，斗鱼App在华为、小米等应用商店中无法下载，显示内容为“由于开发者原因”或者“维护中”等等。据了解，斗鱼于2023年11月24日发布公告宣布成立一个临时管理委员会，由公司董事兼首席战略官苏明明、公司董事兼副总裁曹昊和公司副总裁任思敏组成。
站长网2023-11-28 15:18:33
0000
腾讯以最「离谱」的方式，成了年度赢家？
前两天，2023年的TGA（TheGameAwards）奖项正式出炉，米哈游《崩坏:星穹铁道》喜提最佳移动游戏;腾讯和拳头的《英雄联盟》《无畏契约》也成功包揽了TGA的所有电竞奖项。
站长网站长资讯2023-12-11 10:48:08
0000