新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型
划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。
一项最新研究揭示了一种新的方法,允许一个大型语言模型(LLM)被用于越狱另一个,以揭示潜在的安全漏洞。
来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement(PAIR)的算法,该算法能够自动停止LLMs中的安全漏洞,防止其生成有害内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
PAIR算法的独特之处在于它能够与黑盒模型(如ChatGPT)一起工作,而且它在生成越狱提示时所需的尝试次数较少,而且这些提示具有可解释性,可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。
在研究中,研究人员使用了一个名为Vicuna的开源LLM作为攻击模型,并测试了多个目标模型,包括开源模型和商业模型。
研究结果显示,PAIR成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。这明显改进了现有的越狱算法,后者通常需要数千个查询和平均150分钟的攻击时间。
此外,PAIR生成的攻击具有人类可解释性,可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质,这些提示针对语言模型中的类似漏洞,因为它们通常是在相似的下一个单词预测任务上训练的。
PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前,用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而,通过将提示过程转化为可度量和可评估的问题,开发人员可以创建算法,其中模型的输出被循环用于优化,这将加速LLM领域的发展,可能引领领域中的新的和未预见的进展。
Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒
采访首次揭示出Sora「有所为(比如,将生成效果逼向极限)」和「有所为不为(比如短期内不开放、不生成公众人物)」背后的深层考量——找到一条将AI融入日常生活的正确道路是极其困难的,但也绝对值得一试。站长网2024-03-16 13:45:240000ai让照片动起来!爆火的AI“复活”40年前老照片手机就能做!附可灵保姆级教程
最近,AI视频技术在各大平台上又火了一把,特别是那种让老照片动起来的视频,不仅打起了情感牌,还让许多经典电视剧焕发了新生。这种技术把原本静静躺在相册里的照片,通过AI的魔力,变得栩栩如生,仿佛又回到了那个年代。站长网2024-07-06 16:14:3100012麦肯锡:银行业每年有望从生成式AI获得2000亿至3400亿美元利润
**划重点:**1.🚀《麦肯锡》文章指出,生成式人工智能(genAI)每年可为全球产业增加2.6万亿至4.4万亿美元的价值,而银行有望从中获得年度潜在利润达2000亿至3400亿美元。2.🔄银行在采用genAI时需要在领导层对齐、业务单元负责、价值为中心的用例、清晰目标等方面进行老牌变革管理,同时应对genAI带来的数据、技术、人才等多方面挑战。站长网2023-12-06 11:44:040000谷歌 Recorder 应用或加入人工智能与 Pixel 8 系列一同亮相
站长之家(ChinaZ.com)8月25日消息:随着Pixel7a和Pixel平板电脑的发布,现在科技爱好者正在迫不及待地等待Pixel8的推出。从软件的角度来看,这次推出可能更加令人兴奋,因为谷歌加倍努力投入生成式人工智能的研究。站长网2023-08-26 10:25:230000谷歌通过资助加州新闻业和人工智能的协议避免了「链接税」法案
Google已同意资助加州的本地新闻业和人工智能计划,这一协议据称将导致立法者搁置一项要求Google为分发新闻内容向新闻机构支付费用的提案。但该协议中的州政府资助部分需要在加州年度预算流程中获得立法批准,这也引发了一些立法者和记者工会的批评。站长网2024-08-27 10:45:200000