使用 AI 越狱 AI 模型:新方法可系统地探测 GPT-4 等大型语言模型的弱点,从而使其行为异常
上个月,OpenAI 董事会突然解雇了该公司的首席执行官,这引发了人们的猜测:董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。
Robust Intelligence 是一家成立于 2020 年的初创公司,与耶鲁大学的研究者合作,开发了一种探测大型语言模型(LLMs)的系统性方法,包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。
在 OpenAI 董事会突然解雇公司首席执行官的背景下,Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称,一些现有的风险需要更多的关注。
尽管研究人员已向 OpenAI 发出了漏洞警告,但他们表示尚未收到回应。
哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示:「我们的发现表明,存在一种系统性的安全问题,目前这些问题尚未得到解决和关注。」
OpenAI 的发言人 Niko Felix 表示,公司对研究者分享他们的发现表示「感激」。Felix 说:「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能,使其更加安全和强大。」
新的越狱方法涉及使用额外的人工智能系统来生成和评估提示,系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招,这些攻击似乎凸显了大型语言模型的根本弱点,并表明现有的保护这些模型的方法远远不够。
卡内基梅隆大学(Carnegie Mellon University)教授 Zico Kolter 说:「我非常担心,我们似乎很容易就能攻破这类模型,」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。
Kolter 说,现在有些模型已经有了可以阻止某些攻击的防护措施,但他补充说,这些漏洞是这些模型工作方式的固有缺陷,因此很难防御。 Kolter说:「我认为,我们需要明白,这些漏洞是许多 LLM 固有的,」他说:「我们没有明确而行之有效的方法来防止它们。」
大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前,OpenAI 的 ChatGPT 发布,其功能令普通人眼花缭乱,大型语言模型的潜力成为头条新闻。
在 ChatGPT 发布后的几个月里,发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是,现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示,目前已有 200 多万开发者在使用其 API。
这些模型只是预测给定输入后应该出现的文本,但它们是在大量文本的基础上训练出来的,这些文本来自网络和其他数字资源,使用大量计算机芯片驱动,历时数周甚至数月。只要有足够的数据和训练,语言模型就能表现出超凡的预测能力,对各种输入做出反应,并提供连贯、贴切的信息。
这些模型也会表现出从训练数据中学到的偏差,当提示的答案不太直接时,它们往往会编造信息。如果没有保障措施,它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制,这些模型背后的公司采用了同样的方法,使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分,并利用反馈意见对模型进行微调,使其不易发生错误行为。
Robust Intelligence 提供了几个越狱示例,展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作,但其中一些,如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法,是有效的。
纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示,Robust Intelligence 揭示的新技术表明,通过人类微调来确保模型安全并非万无一失。
Dolan-Gavitt 说,正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说:「我们需要确保设计使用 LLMs 的系统时,越狱不能让恶意用户访问他们不应该访问的内容。」
SAGA:毫秒实现3D高斯交互分割,加速近1000倍
划重点:SAGA(SegmentAny3DGAussians)在3D场景理解和操作中取得了重要突破,能够在几毫秒内实现精细的三维分割,支持多种提示类型,包括点、涂鸦和掩码。SAGA通过融合2D分割和3D高斯技术,以高效、快速的方式实现了3D场景的交互式分割。SAGA能够实现多粒度分割,并在现有基准测试中展现出与最先进方法相媲美的性能,甚至在3D分割速度上实现了近1000倍的加速。站长网2023-12-06 14:32:310000中国首个整车全域操作系统!蔚来乐道宣布L60全系搭载SkyOS·天枢
快科技8月1日消息,日前,蔚来子品牌乐道汽车宣布,乐道L60将全系搭载中国首个整车全域操作系统SkyOS天枢。据悉,SkyOS天枢作为面向AI的乘车全域操作系统,构建了14N的技术集群,涵盖了智能驾驶,车控,车联,数字座舱等整车全域。其中,1代表了一个1个系统虚拟化平台,即SkyOS-H,提供多场景化、高性能、高可靠的虚拟机监视器。站长网2024-08-01 16:43:260000大型科技公司拥才有承担 AI 训练数据成本的能力
划重点:⭐️AI模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。⭐️数据采集与整理对生成式AI的改进至关重要,这为大型科技公司带来了竞争优势。⭐️尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着AI训练数据市场的主导地位。站长网2024-06-03 12:44:160000女子优酷追剧惊现3000秒广告 重进后恢复正常
浙江一位女士在看电视时遇到了一则50多分钟的广告,比一集电视剧还长。她将这一特殊经历发到了短视频平台上,并配文:“优酷,你别太过分了”。根据她所说,当时她正在优酷平台观看电视剧《长月烬明》。在该短视频的评论区,女士今天中午回应称并不是每一集都会有3000多秒的广告,前几集都是正常的100多秒,只是这一集出现了问题,但返回重进就好了。站长网2023-04-12 13:19:100000五月天带火我生意:出租荧光棒一次50,编头发两天赚1000
今年演唱会忙“疯”了。周杰伦、五月天、刘若英、李宇春、薛之谦.....明星们比赛式地开演唱会,观众也在报复性观看,热门歌手演唱会门票秒空,网友用“诺大的鸟巢容易下一个我”来调侃抢票难。火热的演唱会背后,也带动了大家搞钱的热情。站长网2023-06-03 16:23:220000