深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
要点:
大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。
利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法,揭示多个LLM的致命弱点。
呼吁加强对LLM自我越狱的关注,通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。
近期,香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型(LLM)越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。
尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt,但这在黑盒模型中并不实用。在这种情况下,LLM往往受到道德和法律约束,直接的有害指令容易被模型检测并拒绝。
项目地址:https://deepinception.github.io/
为了克服这一问题,研究团队提出了DeepInception,通过嵌套场景的指令Prompt,利用LLM的人格化特性催眠模型,使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作,而且实现了可持续的越狱效果,无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。
研究团队在实验证明了DeepInception的有效性的基础上,呼吁更多人关注LLM的安全问题,并强调加强对自我越狱的防御。
研究的三个主要贡献:
基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;
提供了DeepInception的Prompt模板,可用于不同攻击目的;
实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。
这项研究引发对LLM安全性的新关注,强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。
华为三折叠手机预订量破200万 Mate XT更多配置曝光
华为MateXT非凡大师自9月7日中午12:08开放预约以来,预约开启不到24小时,预约人数已接近200万,他本人对此表示惊讶,并质疑是否真的有这么多人打算购买MateXT。站长网2024-09-10 16:25:560000微软与AI数据分析公司Synthetaic 签署新合作伙伴关系
文章概要:1.Synthetaic是一家专门从事地理空间数据分析的初创公司,它将获得近100万小时的MicrosoftAzure云计算资源。2.Synthetaic将与MicrosoftAzureSpace合作,提供新解决方案来处理地理空间、静态和视频图像数据。站长网2023-08-31 11:36:040000报告:第三季度全球生成式AI应用支出突破1.25亿美元 创新高
据data.ai公布数据显示,生成式人工智能(AIGC)APP第三季度全球用户支出已突破1.25亿美元(不包括第三方Android商店)。data.ai表示,尽管用户支出创下纪录,并实现9%季度环比增长,但AIGC类别涨幅最大的阶段其实发生在2023年的第2季度。站长网2023-11-03 10:27:500000东北雨姐账号被禁言:此前因虚假宣传红薯粉条被罚165万元
近日,知名网红“东北雨姐”的抖音账号因违反相关法律规定被禁言,该账号拥有超过2211.9万的粉丝。此前,她因在直播中销售的红薯粉条被指并未含有红薯成分,而是木薯成分,引发了广泛的争议和关注。站长网2024-10-22 08:41:380000高通骁龙8 Gen4处理器即将发布 高通骁龙峰会定档
站长之家(ChinaZ.com)6月13日消息:骁龙峰会宣布将于今年10月21日至23日在风景如画的夏威夷毛伊岛隆重举行。此次峰会的一大亮点,无疑是即将正式亮相的高通最新移动平台——骁龙8Gen4。站长网2024-06-14 00:28:440000