研究人员发布了针对ChatGPT和其他LLM的攻击算法

站长网2023-08-07 09:01:480阅

卡内基梅隆大学（CMU）的研究人员发表了 LLM Attacks，这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法，包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的，对 GPT-3.5和 GPT-4的成功率为84%，对 PaLM-2的成功率为66%。

与大多数通过试错手动构建的“越狱”攻击不同，CMU 团队设计了一个三步过程，自动生成提示后缀，可以绕过 LLM 的安全机制，并导致有害的响应。这些提示也是可转移的，意味着一个给定的后缀通常可以作用于许多不同的 LLM，甚至是闭源模型。为了衡量算法的有效性，研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时，LLM Attacks 对 Vicuna 的成功率为88%，而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是，这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题，在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此，我们认为在增加对这种 AI 模型的使用和依赖时，应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布，许多越狱这些模型的技术出现了，它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的，但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure， here is （content of query）”，其中“content of query”是用户实际的提示，要求有害响应。

接下来，算法通过使用贪婪坐标梯度（GCG）方法，生成一个提示后缀，可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM

研究人员发布了针对ChatGPT和其他LLM的攻击算法

0000

评论列表

共(0)条

相关推荐

站长资讯
联发科发布天玑 9200+ 移动平台专为游戏手机而设计
联发科今天下午发布了全新的天玑9200旗舰芯片，专为游戏手机而设计。该芯片是在去年的高端芯片天玑9200的基础上进行升级，提升了性能和效率。图片截自MediaTek
站长网2023-05-10 17:27:45
0000
站长资讯
Xmind思维导图收购AI产品ChatMind系列软件
据36氪消息，Xmind思维导图已成功收购AI产品ChatMind系列软件，通过此次收购，Xmind将进一步强化其产品的AI特性。据了解，Xmind成立于2006年，2022，Xmind全球月活跃用户数突破500万，目前已推出了AI产品XmindCopilot。
站长网2023-06-05 23:57:16
0000
站长资讯
vivo自研AI大模型11月1日发布将在OriginOS 4中首次应用
据vivo相关负责人透露，vivo自研AI大模型将会在11月1日发布的OriginOS4系统中被首次应用，其中包括十亿、百亿、千亿三个不同参数量级的5款自研大模型，全面覆盖核心应用场景。据10月16日的C-Eval大模型评测榜单显示，vivo自研大模型在C-Eval全球中文榜单中排名第一。
站长网2023-10-16 10:27:03
0000
站长资讯
微软Teams AI库来了! 可帮助公司创建消息机器人
据外媒报道，微软Teams的AI库将于10月正式投入全球运行。AI库是一系列代码功能，目的是帮助开发者更轻松地在MicrosoftTeams中集成大规模语言模型，从而构建出会话式的Teams应用，提高企业工作效率。
站长网2023-09-14 21:38:10
0000
站长资讯
多模态神经网络SALMONN 能够理解声音世界的AI模型
SALMONN是一个多模态神经网络，能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入，并在多种语音和音频任务上取得竞争性表现。论文地址:https://arxiv.org/pdf/2310.13289v1.pdfSALMONN采用了两个互补的音频编码器，一个用于处理语音，另一个用于处理非语音音频事件，以实现对各种音频任务的优越性能。
站长网2023-10-25 12:56:35
0001