DeepMind发现大bug:简单攻击即可让ChatGPT泄露大量训练数据
站长网2023-11-30 14:19:420阅
Google DeepMind的研究发现,通过简单的查询攻击方法,可以从ChatGPT中泄露出大约几MB的训练数据,成本仅约200美元,引起社交网络哗然。
研究团队成功攻击了生产级模型,打破了对齐设定,即使模型经过对齐,也能通过命令诱导模型输出训练数据,暴露个人信息,揭示了对抗模型泄露的新途径。
攻击方式采用简单的重复命令,例如让ChatGPT不断重复同一个词,导致模型在输出中逐词复制训练数据,甚至泄露敏感信息,对隐私保护提出挑战。
过去几年,研究团队一直在训练数据提取方面进行研究,该次攻击结果首次表明可以成功攻击生产级的已对齐模型,警示开发者需要在设计和测试阶段更加注重模型的隐私性和防护措施。
研究者建议进行更全面的测试,包括直接测试基础模型、在生产过程中对系统进行测试,以及发布大模型的公司进行内部、用户和第三方组织的测试,以确保模型在各个环节都足够安全。
整体而言,攻击揭示了即使在对齐和预训练数据的情况下,ChatGPT也存在泄露训练数据的风险,强调了在开发和发布大型语言模型时对隐私和安全的关注的重要性。
新的攻击方式提出了对抗模型泄露的新思路,强调了在开发和使用大型语言模型时对隐私和安全的重视,并呼吁进行更全面的测试和防护措施。
0000
评论列表
共(0)条相关推荐
抖音直播新版“健康分”处罚生效 303名主播被关闭收礼物权限
抖音集团今日宣布,抖音直播的新版“健康分”处罚规定正式生效。“健康分”制度于2023年9月开始试运行。该制度根据主播的日常直播行为对账号“健康分”进行增减,并根据分值对账号进行分级定档,进而采取不同的管理措施。站长网2024-01-03 14:33:450000公众号突然升级“发表”功能,微信想开了?
果酱妹是没想到,这几年一直被问“尚能饭否”的公众号,最近的更新频率能高到仿佛打鸡血。这不,一直翻来覆去试水改了几个星期的发布功能,又双叒叕改了。后台首页大刺刺的“公众号原群发和发布功能已升级为‘发表’”的字样,提醒着运营人们又到了新的适应期了。站长网2023-09-15 09:07:270001用AI整顿职场,这次打工人终于不骂钉钉了
从ChatGPT到Midjourney,从OpenAI到Office的Copilot,最近这小半年,不论是做图、写文章,甚至是做PPT、写邮件,只要是和人力创作有关的领域,我们都能够发现AIGC的浪潮汹涌,几乎每周乃至每天,AIGC领域都有新的成果。站长网2023-04-19 09:04:510001做了10年增长后,我现在抓私域转化就从一个点切入
-我的经验中,衍生品是非常有效的转化方式,有时ROI会过百!这是5月15日,有着近10年私域运营经验的用户增长产品经理王佩佩,在见实一场以“最有意思的私域转化活动,以及如何激活沉默用户”为主题的直播时分享到的。具王佩佩透露,这个项目是她在江小白任职期间操盘,当时品牌小程序获客缓慢,急需破局方法,于是王佩佩负责操盘了江小白名为“众测”的活动项目。0000《歌手》直播,谁在害怕?
“英子历险记”、“57岁,正是闯的年纪”......”近期,那英被网友玩坏了。这源于近期一档大火音乐综艺《歌手2024》,作为湖南卫视时隔四年后重启的老IP,节目主打海内外顶级歌手音乐竞技,最终争夺一个歌王席位。但和以往不同的是,归来的《歌手2024》玩了个大的,12期全程直播无法修音,此举让歌手们的真实水平直接暴露在观众面前。站长网2024-05-16 13:57:550000