研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
站长网2023-12-12 09:48:590阅
划重点:
- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。
图源备注:图片由AI生成,图片授权服务商Midjourney
传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。
在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。
研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。
0000
评论列表
共(0)条相关推荐
波音公司正利用 AI 从庞大的数据中剔除安全隐患
波音公司正在利用人工智能来筛选海量的数据,并识别其飞机和航空公司运营中的潜在危险,以加强它在两起致命的737Max坠机事件之后试图增加的安全文化。站长网2023-05-25 15:41:490000蓝厂最强直屏旗舰!vivo X100s发布:3999元起
快科技5月13日消息,今晚,vivoX100s正式登场,这是vivo最强悍的直屏旗舰。售价方面,12GB256GB售价3999元,16GB256GB售价4399元,16GB512GB售价4699元,16GB1TB售价5199元。站长网2024-05-13 21:46:060000蔚来发布2023年四季度及全年财报:全年营收556.2亿元再创历史新高
快科技3月5日消息,蔚来发布2023年四季度及全年财报。财报显示,蔚来2023年全年营收556.2亿元,同比增长12.9%,再创历史新高。全年交付160,038台,同比增长30.7%。其中,第四季度共交付50,045台,同比增长25%。全年研发投入134.3亿元,连续两年突破百亿元。第四季度研发费用39.7亿元,连续5个季度超30亿元。0000“二手HR”产业链:一单抽成千元,599元收徒包教包会
“这个行业不好做”,在上海做人才服务的创业者李木感叹。他所感慨的,是一个在社交平台中被称为“二手HR”的项目,这个项目的从业者在市场上也被称为“人力经纪人”或者“私域人力规划师”等。0000古希腊这个几何问题,看着平淡无奇,却让一代代数学家绞尽脑汁
人们常用‘大海捞针’,‘煎水作冰’,‘化圆为方’等成语表示不可能完成的事情。这其中,‘化圆为方’蕴含着丰富的数学知识与数学思想,你知道是什么吗?此外,为什么‘化圆为方’就意味着不可能呢?数学家们又是如何证明其不可能性的呢?下面让我们一起来探究这个有趣的问题。站长网2023-05-24 02:16:590000