研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
站长网2023-12-12 09:48:590阅
划重点:
- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。

图源备注:图片由AI生成,图片授权服务商Midjourney
传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。
在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。
研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。
0000
评论列表
共(0)条相关推荐
OPPO Watch X发布:2299元起
今天下午,OPPOWatchX正式发布,共推出三款不同风格的版本:星夜飞行、大漠银月、千帆蔚蓝,售价分别为2299元、2399元和2499元。首销用户更可享受100元的优惠,实付到手价从2199元起,诚意满满。站长网2024-03-23 03:46:470000AI 将主导今年安卓和 iPhone 更新,但也带来严重的隐私新问题
今年安卓和iPhone的更新将以AI为主题,其中很大一部分来自谷歌。但这也给所有用户带来了一个严重的新警告,我们使用手机的方式将因此改变。把生成式AI集成到我们最常用的手机应用程序中,势必会比去年ChatGPT的推出造成更大影响。我们已然处在这样的时代。但慢着,这一切也存在巨大的安全和隐私风险。站长网2024-02-13 11:53:040000微软发现“万能钥匙”,成功入侵GPT-4o、Claude 3
微软Azure首席技术官MarkRussinovich在官网分享了新型大模型入侵技术——“SkeletonKey”(万能钥匙)。据悉,万能钥匙是一种越狱攻击方法,其核心原理是使用多轮强制、诱导策略使大模型的安全护栏完全失效,让其回答一些禁止的答案,包括血腥、暴力、歧视、色情等非法内容。例如,让ChatGPT回答,如何以更高效的方式进行盗窃并且不被人发现。站长网2024-07-16 09:04:020001Databricks 以 13 亿美元收购 OpenAI 竞争对手 MosaicML:打造企业定制化生成式 AI 模型的未来
Databricks同意以约13亿美元的估值收购生成式人工智能初创公司MosaicML,此举旨在满足企业构建类似ChatGPT的工具的快速增长需求。站长网2023-06-28 15:35:230000腾讯NOW直播今日停止运营并下架
腾讯NOW直播将于今日11时正式停止运营并下架,为其历史画上句号。所有用户需要在2023年12月27日11时00分之前保存好个人所需资料,因为此后将无法再使用NOW直播的产品服务。对于用户账户内的余额,腾讯提供了两种处理方案:资产迁移和退款。用户可以选择将未消耗完的资产迁移到虎牙直播,或者申请退款。这两种方案的截止时间均为2024年2月2日00时00分。站长网2023-12-27 08:21:350000