深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
要点:
大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。
利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法,揭示多个LLM的致命弱点。
呼吁加强对LLM自我越狱的关注,通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。
近期,香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型(LLM)越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。
尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt,但这在黑盒模型中并不实用。在这种情况下,LLM往往受到道德和法律约束,直接的有害指令容易被模型检测并拒绝。
项目地址:https://deepinception.github.io/
为了克服这一问题,研究团队提出了DeepInception,通过嵌套场景的指令Prompt,利用LLM的人格化特性催眠模型,使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作,而且实现了可持续的越狱效果,无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。
研究团队在实验证明了DeepInception的有效性的基础上,呼吁更多人关注LLM的安全问题,并强调加强对自我越狱的防御。
研究的三个主要贡献:
基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;
提供了DeepInception的Prompt模板,可用于不同攻击目的;
实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。
这项研究引发对LLM安全性的新关注,强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。
联发科天玑8300处理器发布 峰值性能大幅提升
联发科天玑8300新品发布会于今日举行,该款新处理器正式与公众见面。天玑8300搭载了3.35GHz四核A715和2.2GHz四核A510CPU,并配备了Mali-G615MC6GPU。据联发科表示,天玑8300的CPU峰值性能相比其前作提升了20%,而功耗却降低了30%。至于GPU方面,天玑8300号称性能提升可达82%,同时功耗也降低了55%。0000国内首个网文大模型来了!「阅文妙笔」:我最懂网文
写网文,现在也要以大模型的“姿势”打开了。这不,网络文学巨头阅文集团就打响了这么一枪:正式发布国内首个网文大模型——阅文妙笔。在这场发布会上,阅文集团CEO侯晓楠还直接表态:这是国内第一个网文大模型,也将是最懂网文、最懂作家的大模型。而这种底气也是源自阅文敢于直面现场演示的挑战。例如对于《庆余年》这部耳熟能详的作品的解读上,若是向阅文妙笔提问“武功高手都有哪些”,它会这样回答:站长网2023-07-20 18:09:340001AI日报:GPTs靠边站!Claude推全新功能Projects;Figma大更新!AI设计几秒成稿;阿里Qwen-2稳夺全球开源大模型榜首
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Claude推类GPTs功能Projects可创建特定项目的个性化机器人站长网2024-06-27 18:43:550000华为 P60对比华为 Mate 50,哪款更值得买,一眼看懂
通过简单的对比可以看出,华为P60的优势还是非常大的,无论价格还是配置,个人比较推荐华为P60站长网2023-05-23 23:46:250001小冰首批网红明星AI克隆人提前上线 能视频电话还能替你工作
你还记得之前小冰公司发布的克隆人计划吗?现在,小冰的第一批网红明星AI克隆人已经正式上线。从半藏森林的克隆人来看,目前的克隆人已经可以做到容貌和声音与真人无异,而且还可以秒回消息、打视频电话聊天。此外,你还可以切换到更聪明的“超级模式”,让她替你工作。据小冰公司介绍,打造这样一个克隆人只需要3分钟。需要注意的是,虽然克隆人的声音可以和真人无异,但说话的语速会稍慢一些,仍然可以辨别出真假。站长网2023-06-02 16:05:450000