首页站长资讯使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

站长网2023-12-06 11:49:050阅

上个月，OpenAI 董事会突然解雇了该公司的首席执行官，这引发了人们的猜测：董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

Robust Intelligence 是一家成立于 2020 年的初创公司，与耶鲁大学的研究者合作，开发了一种探测大型语言模型（LLMs）的系统性方法，包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下，Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称，一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告，但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示：「我们的发现表明，存在一种系统性的安全问题，目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示，公司对研究者分享他们的发现表示「感激」。Felix 说：「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能，使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示，系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招，这些攻击似乎凸显了大型语言模型的根本弱点，并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学（Carnegie Mellon University）教授 Zico Kolter 说：「我非常担心，我们似乎很容易就能攻破这类模型，」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说，现在有些模型已经有了可以阻止某些攻击的防护措施，但他补充说，这些漏洞是这些模型工作方式的固有缺陷，因此很难防御。 Kolter说：「我认为，我们需要明白，这些漏洞是许多 LLM 固有的，」他说：「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前，OpenAI 的 ChatGPT 发布，其功能令普通人眼花缭乱，大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里，发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是，现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示，目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本，但它们是在大量文本的基础上训练出来的，这些文本来自网络和其他数字资源，使用大量计算机芯片驱动，历时数周甚至数月。只要有足够的数据和训练，语言模型就能表现出超凡的预测能力，对各种输入做出反应，并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差，当提示的答案不太直接时，它们往往会编造信息。如果没有保障措施，它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制，这些模型背后的公司采用了同样的方法，使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分，并利用反馈意见对模型进行微调，使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例，展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作，但其中一些，如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法，是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示，Robust Intelligence 揭示的新技术表明，通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说，正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说：「我们需要确保设计使用 LLMs 的系统时，越狱不能让恶意用户访问他们不应该访问的内容。」

使用 AI 越狱 AI 模型 新方法可系统地探测GPT4 等大型语言模型的弱点从而使其行为异常

0000

评论列表

共(0)条

相关推荐

站长资讯
嵌入式、C语言位操作的一些常见用法归纳
分享关于位操作、寄存器配置的一些笔记：一、位操作简单介绍首先，以下是按位运算符：在嵌入式编程中，常常需要对一些寄存器进行配置，有的情况下需要改变一个字节中的某一位或者几位，但是又不想改变其它位原有的值，这时就可以使用按位运算符进行操作。下面进行举例说明，假如有一个8位的TEST寄存器：当我们要设置第0位bit0的值为1时，可能会这样进行设置：TEST=0x01;
站长网2023-05-24 03:39:28
00015
站长资讯
小生意大商机：卖壁纸轻松月入 10 万
新年伊始，“新年待办清单壁纸”话题迅速窜上了热搜。这似乎有些意外，为何壁纸也能成为大家讨论和关注的焦点?其实，自PC时代开始，再到如今的手机、智能手表，壁纸已经成为这些智能设备的门面和装饰，每张壁纸的背后都彰显着人们对生活的一种个性和态度。
站长网2024-01-15 15:26:04
0001
站长资讯
消息称摩根大通拟打造ChatGPT式人工智能服务此前已申请IndexGPT商标
据CNBC报道，摩根大通正在开发一款类似于ChatGPT的人工智能服务，用于帮助客户选择投资标的。据悉，摩根大通在本月申请了一个名为“IndexGPT”的商标，该产品将利用“云计算软件和人工智能”来“分析和选择符合客户需求的证券”。
站长网2023-05-26 09:08:51
0000
站长资讯
贾扬清的500行代码，掀翻了Perplexity5.2亿的桌子？
500行代码VS估值5亿1月25日，自从宣布创业后就备受社区瞩目的贾扬清，在推特上展示了一个对话式搜索引擎的demo。
站长网2024-02-01 14:00:32
0000
男子提供有偿代骂每单收费240元已骂400余人
快科技9月15日消息，据央视新闻报道，公安部今天发布的10起典型案例中，有一起有偿代骂”网络暴力案，犯罪嫌疑人为牟取非法利益，提供所谓的有偿代骂”服务，被警方抓获。据介绍，石某在网络直播间以传播正能量”为噱头，宣称可以帮网友解决各类感情纠纷，实则通过短信或者电话方式替人辱骂他人，打电话辱骂他人一次收费240元，通过短信方式辱骂他人的按120元收费。
站长网站长资讯2024-09-17 09:32:00
0000