深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

站长网2023-11-22 12:06:382阅

要点:

大语言模型（LLM）在各应用中成功，但容易受到Prompt诱导越过安全防护，即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception，通过深度催眠LLM使其越狱，并规避内置安全防护。

利用LLM的人格化特性构建新型指令Prompt，通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法，揭示多个LLM的致命弱点。

呼吁加强对LLM自我越狱的关注，通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

近期，香港浸会大学的研究团队通过深度催眠的方法，提出了一种新颖的大语言模型（LLM）越狱攻击——DeepInception。该研究从心理学视角出发，揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt，但这在黑盒模型中并不实用。在这种情况下，LLM往往受到道德和法律约束，直接的有害指令容易被模型检测并拒绝。

项目地址:https://deepinception.github.io/

为了克服这一问题，研究团队提出了DeepInception，通过嵌套场景的指令Prompt，利用LLM的人格化特性催眠模型，使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作，而且实现了可持续的越狱效果，无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上，呼吁更多人关注LLM的安全问题，并强调加强对自我越狱的防御。

研究的三个主要贡献:

基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;

提供了DeepInception的Prompt模板，可用于不同攻击目的;

实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注，强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索，DeepInception为理解和防范LLM越狱提供了有益的启示。

深度催眠引发的LLM越狱香港浸会大学揭示大语言模型安全漏洞

0002

评论列表

共(0)条

相关推荐

Windows版ChatGPT来了！直接用上最强o1，快捷键即可召唤
【新智元导读】终于，Windows用户也可以用上ChatGPT了。就在刚刚，OpenAI推出了适用Windows系统的ChatGPT应用。不过，目前仅供ChatGPTPlus、Team、Enterprise和Edu用户使用。等了许久，Windows版ChatGPT终于上线了!而且，还是直通最强o1-preview模型的那种。
站长网站长资讯2024-10-19 08:20:17
0000
站长资讯
明日开卖！没有预售的618，电商平台迎来大变化
一条沿用多年的大促规则，在今年618被电商平台亲手砍掉。5月，淘天、京东、快手纷纷宣布，全面取消预售制度，直接开卖现货，抖音电商随后跟进。各平台大促周期与核心玩法如下:部分电商平台规则尚未完全公布预售大规模消失的第一个年头，所有玩家都将游戏规则指向“简单”二字，不过从时间跨度来看，618战线并未缩短，部分平台甚至堪称“史上最长618”。
站长网2024-05-19 09:28:49
0000
站长资讯
OpenAI与迪拜G42合作，瞄准扩张中东市场
划重点:1.🤖OpenAI与G42达成合作，旨在在中东地区扩展人工智能能力。2.🌍合作计划在G42的专业领域，如金融、能源、医疗和公共服务中，利用OpenAI的生成式人工智能模型。3.💡合作被视为将AI解决方案带入中东地区，并提升全球扩张计划的关键一步。OpenAI与总部位于迪拜的科技控股集团G42宣布了一项新的合作伙伴关系，旨在扩展中东地区的人工智能能力。
站长网2023-10-19 11:57:58
0000
站长资讯
大模型数据标注平台Scale AI融资10亿美元，估值达138亿美元
划重点:⭐ScaleAI获得10亿美元F轮融资，估值达138亿美元，成为大模型领域独角兽。⭐ScaleAI主要提供数据标注服务，合作伙伴包括OpenAI、微软、Meta等知名公司。⭐Suno也获得1.25亿美元融资，两笔超过1亿美元的融资事件引发关注。
站长网2024-05-22 18:43:12
0001
站长资讯
看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”
大模型们胡说八道太严重，英伟达看不下去了。他们正式推出了一个新工具，帮助大模型说该说的话，并回避不应该触碰的话题。这个新工具名叫“护栏技术”（NeMoGuardrails），相当于给大模型加上一堵安全围墙，既能控制它的输出、又能过滤输入它的内容。一方面，用户诱导大模型生成攻击性代码、输出不道德内容的时候，它就会被护栏技术“束缚”，不再输出不安全的内容。
站长网2023-05-04 09:24:40
0000