研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
站长网2023-12-12 09:48:590阅
划重点:
- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。
图源备注:图片由AI生成,图片授权服务商Midjourney
传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。
在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。
研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。
0000
评论列表
共(0)条相关推荐
甩英伟达几百条街?Etched AI开创新技术 将Transformer架构直接“烧录”到芯片中
美国芯片初创公司EtchedAI近日宣称,他们成功开创了一项新的技术,将Transformer架构直接“烧录”到了芯片中,创造出了世界上最强大的专门用于Transformer推理的服务器。据称,这项技术可以运行万亿参数的模型,甩英伟达几百条街。官网地址:https://www.etched.ai/站长网2023-12-19 10:34:240004华为 nova 12 系列今日开售 售价2999元起
华为旗下全新手机华为nova12和华为nova12Pro今日上午10点08分正式开售,起价2999元。华为nova12提供8GB256GB和8GB512GB两种存储规格,售价分别为2999元和3399元。而华为nova12Pro则提供12GB256GB和12GB512GB两种配置,售价分别为3999元和4399元。站长网2024-01-05 08:47:400000蚂蚁开源ATorch 、 Lookahead两项大模型技术
最近,蚂蚁开源了两项与大模型相关的新技术:ATorch和Lookahead。ATorch是一个大模型分布式训练加速扩展库,可实现深度学习自动资源动态优化和分布式训练稳定性提升,可提升深度学习的智能性,千亿模型千卡级别训练的算力利用率可达60%。Lookahead是一个推理加速框架,可以大幅提升大模型的推理效率,可将推理加速2-6倍。站长网2024-01-18 10:23:340000Snap 宣布将「My AI」聊天机器人免费提供给 Snapchat 全部 7.5 亿月活跃用户使用
Snap公司宣布将其「MyAI」聊天机器人免费提供给Snapchat的全部7.5亿月活跃用户使用。这一变化发生在不到两个月前,该基于OpenAI技术的机器人首先向该应用的300多万付费订阅用户提供服务。图片来自Snap站长网2023-04-20 11:10:190000半藏森林克隆人暂下线 此前小冰公司推出“GPT克隆人计划”
近日有网友发现,虚拟人休闲娱乐平台XEva下架了网红“半藏森林”等AI克隆人。运营人员表示:“半藏森林”克隆人目前正在内测,由于内测名额已满,因此先进行了下线。目前平台正在进行调整,其他虚拟人也目前不可见。6月1日,小冰公司宣布首批网红明星克隆人已提前上线,包括“半藏森林”等。站长网2023-06-05 21:07:040000