研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
站长网2023-12-12 09:48:590阅
划重点:
- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。

图源备注:图片由AI生成,图片授权服务商Midjourney
传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。
在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。
研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。
0000
评论列表
共(0)条相关推荐
疯狂小杨哥,最后一位超头主播
疯狂小杨哥,或许是最后一个超级头部主播。作为“抖音一哥”的疯狂小杨哥最近频上热搜:徒弟直播内容被指低俗、影射另一位超头主播垄断品牌定价、回应“电商挤压实体经济”、旧闻“每个月发工资超5000万”再被翻出、被“打假”事件……身处舆论漩涡风口,小杨哥的一切都被拿到放大镜下审视,真真假假,难以分辨。树大招风之下,没有人知道,此刻站在流量顶峰的小杨哥,究竟在想什么?站长网2023-10-31 10:58:150000Redmi Buds 6活力版发布:仅售 99 元 30小时续航
今日,RedmiBuds6活力版正式发布。这款耳机不仅价格亲民,仅售99元,而且将于5月20日20:00正式开启销售。RedmiBuds6活力版在设计上采用了小方盒造型,简约而不失时尚感。其配色丰富多样,包括黑色、白色和蓝色,满足不同消费者的审美需求。站长网2024-05-16 16:11:180000Meta 即将发布商用版 LLaMA 大模型以追赶微软支持的 OpenAI 和谷歌等竞争对手
Meta即将发布其人工智能模型的商业版本,使初创企业和企业能够在该技术基础上构建定制软件。此举将使Meta能够与得到微软支持的OpenAI和谷歌竞争,后者正在AI赛道上快速发展生成式人工智能。站长网2023-07-14 09:50:340000小米汽车全栈自研智能驾驶技术公布 目标2024年进入第一梯队
在今天下午的小米汽车技术发布会上,雷军宣布了小米汽车在智能驾驶技术方面的最新成果。他强调,尽管小米汽车在智能驾驶领域起步较晚,但小米的目标是在2024年成为行业第一。小米汽车的全栈自研智能驾驶技术是其核心优势之一。该技术不仅全面自研底层算法,还对AD三件套(BEV、Transformer、OCC占用网络)进行了全面自研,并融入了大模型技术。站长网2023-12-28 15:39:410000中国首部AI全流程微短剧《中国神话》启播 央视频AI频道上线
据央视新闻报道,3月22日,在中央广播电视总台成立6周年之际,央视频AI微短剧《中国神话》正式启播。央视频AI频道也在此时正式上线。站长网2024-03-23 03:46:460000