研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击

站长网2023-07-31 10:44:461阅

研究人员发现，可以自动构建对抗性攻击，欺骗ChatGPT、Bard 和 Claude 等主要语言模型（LLM），以提供非预期且可能有害的内容

传统的越狱需要大量手动开发，通常可以由 LLM 供应商解决。然而，这些自动化攻击可以大量创建，并且可以在闭源和公开的聊天机器人上运行。

这项研究对大型语言模型（LLMs）的安全性进行了研究，发现可以自动构建对 LLMs 的对抗攻击，通过附加特定字符序列到用户查询中，使系统在产生有害内容的同时执行用户命令。这些攻击是自动化构建的，可以创建无数个攻击。

研究人员展示了一些攻击的示例，展示了在用户查询中添加对抗后缀字符串之前和之后 LLM 的行为。研究人员指出，这项研究包含的技术和方法可以让用户从一些公共 LLMs 生成有害内容。

攻击在计算机视觉领域已经存在了十多年，这表明

类似的对抗性攻这类威胁可能是人工智能系统固有的。研究还表明，可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越来越大，我们应该考虑这些问题。

研究发现针对ChatGPTBard等LLM的自动越狱攻击

0001

评论列表

共(0)条

相关推荐

站长资讯
微软推出大型语言模型分割推理助手LISA
想象一下你想喝咖啡，然后你命令机器人去泡咖啡。您的指令涉及“煮一杯咖啡”，但不包括“去厨房，找到咖啡机，然后打开它”等分步指令。目前的现有系统包含依赖人类指令来识别任何目标对象的模型。他们缺乏推理能力和主动理解用户意图的能力。
站长网2023-08-10 10:54:31
0001
站长资讯
苹果新功能“智能摘要”或引发对AI搜索工具的冲击
苹果公司可能会再次引发“Sherlock”效应，这次的目标是AI驱动的搜索功能。近年来，苹果被指从其开发者社区借鉴创意以丰富自家应用和操作系统功能。从20世纪90年代末Sherlock查找器应用的发布，到最近的连续互通相机、Sidecar和ApplePayLater，苹果一再被批评“封杀”了第三方应用程序。最新的目标可能是AI搜索和摘要工具。
站长网2024-05-30 10:49:50
0000
站长资讯
中科闻歌将于6月3日推出雅意AI大模型
中科闻歌宣布，将在6月3日推出雅意AI大模型。据介绍，雅意AI大模型支持实时在线联网、自主私有化部署、企业数据领域知识、领域深度认知等特性，为企业提供大模型、数字人、领域模型应用服务。
站长网2023-05-19 16:36:29
0000
站长资讯
我，网上骂醒“恋爱脑”，日入2000元
如果要问一个年轻人，当代最无可救药的“绝症”是什么，“恋爱脑”必定榜上有名。“人间清醒”的年轻人甚至为此发明了完整的“恋爱脑劝退套餐”:“手机锁屏是张翰，闲着没事就看王宝钏挖野菜;茶余饭后点开许超医生微博;睡前脑内小剧场男主角那得是慕容云海。”（年轻人为“剔除恋爱脑”做出种种行为的网络梗）
站长网2023-07-04 15:58:14
00018
站长资讯
广东夫妇成6月抖音直播带货冠军，夫妻档的流量密码怎么解？
“不要夫妻千担粮，只要夫妻好商量”，近年来，越来越多夫妻搭档出现在直播间开始带货，他们在直播间左手秀恩爱，右手创造带货奇迹，爱情、工作两不误。除了鼻祖式存在的广东夫妇，还有“高颜值学霸”金爱罗夫妇、喜欢“造节”彩虹夫妇等，夫妻档逐渐成为各平台带货的“流量密码”，夫妻模式直播带货为何倍受用户喜爱?不妨以广东夫妇为例，从他们身上找出一些流量门道。广东夫妇的直播带货有多强?
站长网2023-07-13 09:09:10
0000