研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏
**划重点:**
1. 🕵️♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型(LLM)产生有害反应的方法。
2. ⚡️ BEAST相较于基于梯度的攻击更快速,利用Nvidia RTX A6000GPU,48GB内存,一分钟GPU处理时间,成功率高达89%。
3. 🤖 攻击不仅可用于公共互联网上的聊天机器人,还能对付商用模型如OpenAI的GPT-4,而无需访问整个语言模型。
站长之家(ChinaZ.com)2月29日 消息:研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型(LLM)产生有害反应,他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码,仅需一分钟的GPU处理时间,就能让LLM飞越其防护栏。
图源备注:图片由AI生成,图片授权服务商Midjourney
BEAST相较于基于梯度的攻击更为迅速,成功率达到89%,相较于过去需要一个小时的梯度攻击,其速度提升了65倍。Vinu Sankar Sadasivan,这项研究的对应共同作者之一,表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型,比如GPT-4,进行攻击,这可能代价高昂。”
大型语言模型通常经历对齐过程,使用强化学习等技术进行微调,以使其输出符合安全要求。在公共互联网上,向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示,由于安全对齐原因通常会得到拒绝。然而,之前的研究已经开发出各种“越狱”技术,生成有害提示,尽管经过了安全训练。
研究小组利用GPU硬件和称为“beam search”的技术,对AdvBench Harmful Behaviors数据集中的示例进行测试,成功提交一系列有害提示给各种模型,并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内,他们在Vicuna-7B- v1.5上实现了89%的成功率,而最佳基线方法只有46%。
该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数,BEAST就能攻击模型。OpenAI计划提供这一功能,因此我们可以在技术上攻击公开可用的模型,只要其令牌概率分数可用。”
基于最近研究的敌对提示看起来像是一个可读短语,与一系列不合适的词汇和标点符号连接在一起,旨在误导模型。BEAST包括可调参数,使得危险提示更易读,但可能以攻击速度或成功率为代价。
可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示,即“幻觉”,以及进行成员推断攻击,可能涉及隐私问题,测试某个数据是否属于模型的训练集。
尽管BEAST表现良好,但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明,语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而,通过对齐训练,可以从经验上使AI模型变得更安全。”
此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。
科大讯飞:讯飞星火V4.0版6月27日发布 讯飞星火智能体平台亮相
今日,科大讯飞发布了首个支持长文本、长图文、长语音的大模型。在讯飞星火V3.5春季上新活动中,科大讯飞董事长刘庆峰介绍了讯飞星火大模型的一系列新功能:1.首次上线的星火图文识别大模型可以快速识别和学习多类型海量知识,提供更专业、更精准的行业场景回答。2.星火合同助手首次上线,可以审核规避合同风险、提炼总结关键要素,并一键起草合同文件。站长网2024-04-26 10:55:050004Windows11将以AI替代受欢迎的快捷方式
**划重点:**1.🚀Microsoft计划通过在Windows11的开发者预览版中替换快捷方式,提升操作系统的AI功能。2.🗑️在预览版本中,Copilot的快捷方式将取代自2009年以来一直存在的“显示桌面”按钮。3.🤖Microsoft旨在使Copilot在Windows桌面上更高效和显眼,尽管“显示桌面”功能仍可手动启用。站长网2023-12-06 11:39:240001研究人员使用AI技术鉴别eBay上的艺术品 发现多达40件赝品
划重点:-研究人员通过使用AI技术在eBay上鉴别艺术品,发现多达40件假作品,其中包括一幅被标榜为莫奈的作品和一幅被标榜为雷诺阿的作品。-AI算法将所有作品都识别为假作品,有95%的负概率。专家表示这只是冰山一角,eBay需要严肃对待这个问题。-eBay表示不允许销售假冒商品,但研究人员多次致信该平台表达担忧,至今未得到回复。站长网2024-05-13 11:39:440000顺丰抄起东方甄选作业
在顺丰即将赴港二次上市前夕,顺丰又又又尝试做电商了。8月1日晚,顺丰控股发布公告称,计划发行上市外资(H股)股票并申请在香港联合交易所有限公司主版挂牌上市,也就意味着2017年A股上市后,顺丰即将赴港二次上市。而就在上市前夕,顺丰速递小程序低调上线了直播带货业务,带货产品主要为生鲜水果等助农产品,主播和直播间均为自建团队搭建。站长网2023-08-05 09:51:5000004天大赚1亿美元,《幻兽帕鲁》这匹开年黑马“缝”明白了
一周狂赚1亿美元,游戏《幻兽帕鲁》的成绩绝对让不少人眼红。据游戏开发商Pocketpair披露数据,《幻兽帕鲁》自1月19日上线Steam以来,8小时内销量突破100万,6天内销量突破800万。TGA官方表示,该游戏前四天Steam和Xbox收入总和达到1.62亿美元。而其投入成本仅有10亿日元(约合人民币4855万元)。站长网2024-01-30 09:23:500000