新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型
划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。
一项最新研究揭示了一种新的方法,允许一个大型语言模型(LLM)被用于越狱另一个,以揭示潜在的安全漏洞。
来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement(PAIR)的算法,该算法能够自动停止LLMs中的安全漏洞,防止其生成有害内容。
图源备注:图片由AI生成,图片授权服务商Midjourney
PAIR算法的独特之处在于它能够与黑盒模型(如ChatGPT)一起工作,而且它在生成越狱提示时所需的尝试次数较少,而且这些提示具有可解释性,可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。
在研究中,研究人员使用了一个名为Vicuna的开源LLM作为攻击模型,并测试了多个目标模型,包括开源模型和商业模型。
研究结果显示,PAIR成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。这明显改进了现有的越狱算法,后者通常需要数千个查询和平均150分钟的攻击时间。
此外,PAIR生成的攻击具有人类可解释性,可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质,这些提示针对语言模型中的类似漏洞,因为它们通常是在相似的下一个单词预测任务上训练的。
PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前,用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而,通过将提示过程转化为可度量和可评估的问题,开发人员可以创建算法,其中模型的输出被循环用于优化,这将加速LLM领域的发展,可能引领领域中的新的和未预见的进展。
全网都在吐槽“AI刘强东”,但属于普通人的机会来了
“AI刘强东大佬下场直播秀”的消息相信大家都知道了。4月16日18点18分,刘强东AI数字人在京东App开启直播首秀,品类包括粮油、农产品、宠物用品等。直播间的刘强东数字人和真人确实颇为相似:无论是外貌神态还是语音语调,都模仿了刘强东本人的习惯,但是不少网友依然评价称过于生硬,虽然有和网友的互动部分,但看上去与念稿并无差异,而非真正意义的互动。但数字人出镜的数据到底是怎么样的呢?站长网2024-04-19 09:26:430000Square Enix 公司总裁宣布在未来游戏中将大力应用人工智能技术
SquareEnix公司总裁TakashiKiryu在其年度「新年信」中宣布,该公司计划在未来游戏的开发和市场营销中大力应用人工智能(AI)技术。这一消息显示出该公司对于新兴技术的重视和未来规划的雄心。0000腾讯小世界将改名QQ短视频 强化短视频产品定位
据界面新闻报道,腾讯QQ的“小世界”产品将更名为“QQ短视频”,以进一步强化其短视频的产品定位。据报道,来自QQ内部的消息人士透露,目前在整个QQ平台上,有很多用户只观看短视频而不参与聊天。这意味着小世界在QQ的活跃用户数据中占据了相当大的比例,对于腾讯来说,这是一个值得关注和利用的资源。站长网2023-12-01 14:14:450000创新3D技术Gaussian-SLAM 通过分析视频重建逼真的3D场景
Gaussian-SLAM是一项新兴技术,可以通过分析视频流中的图像来创建逼真的3D模型,从而重建现实世界场景。通过观看一个视频,Gaussian-SLAM可以分析视频中的图像,能够理解视频中的环境布局和物体的位置。然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型,重建现实世界场景。这一过程是实时渲染的,可以帮助用户在计算机上查看和探索3D虚拟环境。站长网2023-12-19 10:47:410000ElevenLabs推Audio Native 可将网页内容自动转为博客
ElevenLabs推出了一项名为AudioNative的新服务,它是一个嵌入式音频播放器,能够自动将博客、新闻网站和其他网页内容转换成高质量的语音旁白,从而将这些内容自动变为播客形式。主要功能:自动生成语音旁白:利用ElevenLabs的文本转语音服务,自动生成网页内容的高质量人声旁白。支持实时生成语音旁白,用户无需等待即可收听。站长网2024-05-21 01:25:540000