研究人员诱导AI聊天机器人泄露有害内容,成功率高达 98%
站长网2023-12-12 09:48:590阅
划重点:
- 研究人员设计了一种方法,成功引导大型语言模型回答有害问题,揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容,成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。
印第安纳州普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型(LLM)生成有害内容,揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时,研究人员发现通过利用模型制作者公开的概率数据和软标签,可以迫使模型生成有害内容,成功率高达98%。
图源备注:图片由AI生成,图片授权服务商Midjourney
传统的越狱方法通常需要提供提示来绕过安全功能,而这种新方法使用概率数据和软标签来强制模型生成有害内容,无需复杂的提示。研究人员称其为 LINT(LLM 询问的缩写),它通过向模型提出有害问题并排名响应中的前几个标记,进而诱导模型生成有害内容。
在实验中,研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示,当模型被询问一次时,成功率达到92%;当模型被询问五次时,成功率更高,达到98%。相比其他越狱技术,这一方法的性能明显优越,甚至适用于根据特定任务定制的模型。
研究人员还警告人工智能社区在开源 LLM 时应谨慎,因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容,而不是将其隐藏在模型中。这项研究的结果提醒我们,保障人工智能技术的安全性和可信度仍然是一个重要的挑战。
0000
评论列表
共(0)条相关推荐
马斯克嘲讽苹果VisionPro头显 买它不如花20美元买包致幻蘑菇
马斯克在当地时间周四晚上发推,嘲讽苹果新推出的AR头戴设备VisionPro。他发布了一张图片,图片左侧是VisionPro,右侧是一个装有几个迷幻蘑菇的塑料袋,上面写着“通过化学方法改变碳的振动,立即接触UFO和外星人。”图片上方还配有文字:“苹果3500美元的增强现实vs20美元的增强现实”。站长网2023-06-10 03:09:540000美团将于4月17日上线团购配送业务
4月11日,美团在内部生态会议中公布,将于4月17日在中国20多个城市推出团购配送业务,覆盖北京、上海、广州、深圳和成都等一线和二线城市。一位接近美团的人士透露:“我们并没有特别的玩法,就是为了和抖音竞争。如果抖音有,美团也必须要有。”据悉,美团的团购配送业务已经在部分商家端口开始了内部测试。站长网2023-04-13 18:06:310000Meta 首席科学家 Yann LeCun 认为 AI 超级智能不会很快到来,对量子计算持怀疑态度
在Meta庆祝其基础AI研究团队成立10周年的活动中,该公司首席科学家兼深度学习先驱YannLeCun表达了对当前人工智能系统发展的看法。LeCun认为,现有AI系统距离达到某种程度的自我意识,具备推动其能力超越仅仅以创造性方式总结大量文本的常识,仍有数十年的时间。站长网2023-12-04 09:51:410000OpenAI公布ChatGPT安全框架 以保障AI安全
OpenAI是ChatGPT的开发者,他们制定了应对人工智能可能带来的严重危险的计划。该框架包括使用AI模型的风险“记分卡”来衡量和跟踪潜在危害的各种指标,以及进行评估和预测。OpenAI表示将根据新数据、反馈和研究不断完善和更新框架。站长网2023-12-19 08:44:540000知识内容井喷,为什么我们比以前更焦虑了?
“鉴定一下网络热门生物视频。”在无穷小亮飞快的语速下,“亮记生物鉴定”系列科普视频终于迎来更新,弹幕评论里一片惊喜。这是他从图文科普博主转型到视频创作者的第四年,也正是从2019年开始,深度内容重获网民的喜爱。乘着实用主义与短视频的旋风,知识正式进入了视频时代。站长网2023-08-28 09:14:070000