深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞
要点:
大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。
利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法,揭示多个LLM的致命弱点。
呼吁加强对LLM自我越狱的关注,通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。
近期,香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型(LLM)越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。
尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt,但这在黑盒模型中并不实用。在这种情况下,LLM往往受到道德和法律约束,直接的有害指令容易被模型检测并拒绝。
项目地址:https://deepinception.github.io/
为了克服这一问题,研究团队提出了DeepInception,通过嵌套场景的指令Prompt,利用LLM的人格化特性催眠模型,使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作,而且实现了可持续的越狱效果,无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。
研究团队在实验证明了DeepInception的有效性的基础上,呼吁更多人关注LLM的安全问题,并强调加强对自我越狱的防御。
研究的三个主要贡献:
基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;
提供了DeepInception的Prompt模板,可用于不同攻击目的;
实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。
这项研究引发对LLM安全性的新关注,强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。
联想:未来三年追加70亿元投资AI技术和应用
联想集团公布了2023/2024财年第一财季业绩,营收为903亿元人民币,净利润为13.3亿元人民币。其中,集团服务导向的转型业务继续增长,PC以外业务在总营收中的占比达到41.4%。联想集团董事长兼首席执行官杨元庆表示,面对全球人工智能热潮,联想集团计划在未来三年追加70亿元投资,加速部署人工智能技术和应用。站长网2023-08-17 15:10:270000英伟达和 Amgen 支持 AI 制药公司 Generate 筹集 2.73 亿美元
利用人工智能(AI)探索新治疗方法的药物开发公司Generate:Biomedicines周四表示,该公司已从包括英伟达风险投资部门和Amgen在内的投资者那里筹集了2.73亿美元的资金。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-09-15 10:19:260000图片生成精准动态视频,阿里、港大推出新模型LivePhoto
阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。与传统方法不同的是,LivePhoto在开源文生图模型StableDiffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。0003人工智能生物制药公司BPGbio 与 VELL Health 宣布合作
BPGbio与VELLHealth宣布合作,为圭亚那的糖尿病患者推出全面健康应用程序。这一创新倡议是圭亚那全国糖尿病诊所试点项目的一部分,旨在通过利用移动技术、数据科学和整体健康方法改善医疗保健。站长网2023-07-27 17:45:050000华为正式发布问界M9:售价46.98万元起 2月26日规模交付
华为今日下午举行了全场景发布会,问界M9豪华D级SUV正式发布。售价方面,问界M9增程Max版46.98万元,纯电Max版50.98万元,增程Ultra版52.98万元,纯电Ultra版56.98万元,将于2月26日规模交付。站长网2023-12-26 17:02:190000