研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击
站长网2023-07-31 10:44:461阅
研究人员发现,可以自动构建对抗性攻击,欺骗ChatGPT、Bard 和 Claude 等主要语言模型 (LLM),以提供非预期且可能有害的内容
传统的越狱需要大量手动开发,通常可以由 LLM 供应商解决。然而,这些自动化攻击可以大量创建,并且可以在闭源和公开的聊天机器人上运行。
这项研究对大型语言模型(LLMs)的安全性进行了研究,发现可以自动构建对 LLMs 的对抗攻击,通过附加特定字符序列到用户查询中,使系统在产生有害内容的同时执行用户命令。这些攻击是自动化构建的,可以创建无数个攻击。
研究人员展示了一些攻击的示例,展示了在用户查询中添加对抗后缀字符串之前和之后 LLM 的行为。研究人员指出,这项研究包含的技术和方法可以让用户从一些公共 LLMs 生成有害内容。
攻击在计算机视觉领域已经存在了十多年,这表明
类似的对抗性攻这类威胁可能是人工智能系统固有的。研究还表明,可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越来越大,我们应该考虑这些问题。
0001
评论列表
共(0)条相关推荐
拿货靠抢!义乌“年画大王”卖全球
新春佳节,家里必须带点红。对中国人来说,贴年画是迎接春节的一项重要仪式,腊月里,大家会在房屋正大门贴上“倒福”和春联,年味也就呼之欲出了。卖年画、对联的老板会被喊作“送福气的人”。中国各地被喊作“年画大王”的人不少,他们往往在年画绘制上拥有精湛的手艺,但在义乌,“年画大王”更是这门生意的操盘者:以义乌市文化礼品行业协会会长、义乌市年画挂历商会会长楼宝娟为代表的从业者达六七百家,占全球八成市场。站长网2024-02-16 10:38:030000红人、主播纷纷开设线下店,线上流量不行了?
“冲动了,一不小心整了个1000平米的店铺不知道做什么用……”7月,抖音富二代网红博主@王红权星在自己的账号里发布了一支视频,称自己不小心盘了家店,而盘店的原因竟是因为朋友在附近开了家新店,在微醺的状态和朋友的怂恿下,竟然把临近正在招商的店铺也盘了下来,上下共4层,约1200平。站长网2023-09-21 16:40:400000苹果将推出AI补丁 用眼睛和声音控制您的 iPhone 和 iPad
苹果公司在纪念全球辅助功能意识日上宣布了即将推出的iOS和iPadOS辅助功能,旨在为残疾人士提供更便捷的体验。这些新技术不仅服务于特定群体,还可能对广大用户产生积极影响。站长网2024-05-16 09:46:190000滴滴致歉补偿券领不了上热搜 官方回应:参与人数较多建议耐心等待
针对“补偿券领不到”的情况,滴滴出行App在线客服回应称:“目前参与人数较多,建议您耐心等待。”今日,针对11月27日夜间发生系统故障的情况,滴滴表示,将于未来24小时内完成结算,乘客如有多支付的情况将退回多收部分。同时,滴滴还表示,为所有用户准备了1张10元打车立减券用于致歉补偿。站长网2023-11-29 15:59:550000