研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏
**划重点:**
1. 🕵️♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型(LLM)产生有害反应的方法。
2. ⚡️ BEAST相较于基于梯度的攻击更快速,利用Nvidia RTX A6000GPU,48GB内存,一分钟GPU处理时间,成功率高达89%。
3. 🤖 攻击不仅可用于公共互联网上的聊天机器人,还能对付商用模型如OpenAI的GPT-4,而无需访问整个语言模型。
站长之家(ChinaZ.com)2月29日 消息:研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型(LLM)产生有害反应,他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码,仅需一分钟的GPU处理时间,就能让LLM飞越其防护栏。
图源备注:图片由AI生成,图片授权服务商Midjourney
BEAST相较于基于梯度的攻击更为迅速,成功率达到89%,相较于过去需要一个小时的梯度攻击,其速度提升了65倍。Vinu Sankar Sadasivan,这项研究的对应共同作者之一,表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型,比如GPT-4,进行攻击,这可能代价高昂。”
大型语言模型通常经历对齐过程,使用强化学习等技术进行微调,以使其输出符合安全要求。在公共互联网上,向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示,由于安全对齐原因通常会得到拒绝。然而,之前的研究已经开发出各种“越狱”技术,生成有害提示,尽管经过了安全训练。
研究小组利用GPU硬件和称为“beam search”的技术,对AdvBench Harmful Behaviors数据集中的示例进行测试,成功提交一系列有害提示给各种模型,并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内,他们在Vicuna-7B- v1.5上实现了89%的成功率,而最佳基线方法只有46%。
该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数,BEAST就能攻击模型。OpenAI计划提供这一功能,因此我们可以在技术上攻击公开可用的模型,只要其令牌概率分数可用。”
基于最近研究的敌对提示看起来像是一个可读短语,与一系列不合适的词汇和标点符号连接在一起,旨在误导模型。BEAST包括可调参数,使得危险提示更易读,但可能以攻击速度或成功率为代价。
可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示,即“幻觉”,以及进行成员推断攻击,可能涉及隐私问题,测试某个数据是否属于模型的训练集。
尽管BEAST表现良好,但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明,语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而,通过对齐训练,可以从经验上使AI模型变得更安全。”
此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。
完全抛弃小核、最多8个大核!Intel悄然推出全新14代CPU
快科技7月21日消息,Intel悄然上线了多款第14代酷睿处理器,完全摒弃了小核(E核),只有大核(P核)。这批处理器专为嵌入式和商业市场设计,编号后缀带有E”,并且数字部分以01”结尾,与桌面版一样使用FCLGA1700插槽。站长网2024-07-22 07:44:360000音乐制作 AI 应用 Riffusion 融资 400 万美元
近日,音乐创业公司Riffusion最近完成了一轮融资,获得了400万美元资金,用于进一步开发其人工智能技术,可以生成原创音乐。本轮融资由GreycroftPartners领投,SouthParkCommons和Sky9也参与其中。站长网2023-10-18 21:43:370000Jericho Security 获得300万美元融资,对抗生成式AI网络钓鱼威胁
本文概要:1.JerichoSecurity是一家人工智能网络安全初创公司,最近获得了300万美元的融资。2.JerichoSecurity的平台利用复杂的模拟和针对员工的教育内容,对抗生成式人工智能驱动的网络钓鱼攻击威胁。3.JerichoSecurity的解决方案通过使用先进的语言处理和私有托管的语言模型,为组织提供个性化服务和基本指标反馈。站长网2023-08-07 18:15:490001微信下拉小程序新增音乐和音频 可限时免费听QQ音乐VIP歌曲
微信更新到8.0.38版本后,下拉小程序新增了音乐和音频功能,用户可以更方便地进入播放界面。其中,音乐板块由“今天”、“推荐歌单”和“视频号音乐人”三部分组成,用户可以直接播放歌曲,并支持滚动歌词和评论功能。站长网2023-07-18 17:22:560000大模型剧本杀开源:6个Claude里藏一个凶手!刚上线服务器就被挤爆,免费免下载免注册
AI原生互动侦探游戏,刚上线就爆火,服务器一度挤爆。免费、免下载、免注册、中文友好、浏览器运行……这么多buff叠在一起,是不是勾起了你的好奇心?今天的主角AIAlibis,由两位外国游戏爱好者共同开发,并且作为参赛作品提交给了Anthropic六月份的开发者竞赛。短时间内AIAlibis就在Hackersnews上登顶第一。(但是服务器被热情试玩的网友挤爆了…)站长网2024-07-14 11:05:220000