大模型界的“熊猫烧香”,可对文生图模型造成巨大伤害!
《麻省理工技术评论》分享了一个名为Nightshade的投毒工具,可以对DALL-E、Midjourney 和Stable Diffusion等文生图模型的训练数据造成造成巨大伤害,以帮助艺术家们防止非法爬取其画作数据,用于大模型训练,同时揭露了模型存在的安全隐患。
Nightshade使用的攻击技术和优化策略,可以在保持图像视觉效果不变的情况下,通过很小的扰动改变图像的内在特征,既能起到攻击效果又可以避开检测。
将Nightshade的毒数据融合到训练数据中,会使得模型生成的内容崩溃或出现“驴唇不对马嘴”的情况,例如,生成狗的图片会变成猫,生成汽车的图片会变成牛等。
当多个概念被攻击时, 可以在同一个模型上实现Buff叠加,最高可导致模型提示生成的内容全部失效或无法响应提示。
这极强的毒性让人联想到了10多年前名震天下的“熊猫烧香”病毒,都有隐蔽、繁殖强和Buff叠加的特性。
测试数据显示,Nightshade的攻击成功率极高,只需要大约100个投毒样本就可以使模型在特定提示生成错误的图像,与传统攻击相比,所需的数据量降低90%以上。
论文地址:https://arxiv.org/abs/2310.13828
研究人员通过分析知名训练数据集LAION-Aesthetic的数据特征发现,每个概念在数据集中的训练样本数量极为有限。
用关键词频率和语义频率两个指标衡量各概念在数据集中的稀疏程度时,发现92%以上的概念其训练样本数量不足整个数据集的0.2%,存在非常明显的安全漏洞。
基于这个发现,研究人员开发了Nightshade一种“脏标签”的攻击方法。
文本提示选择
Nightshade首先需要选择相关的文本提示作为投毒攻击的目标。从一个自然图像文本配对数据集中选择包含投毒概念C的文本提示。
为了最大化每一个文本提示对模型的影响,Nightshade选择那些在文本 embedding 空间中与概念C语义最相关的文本提示。
算法是计算每一个文本t与概念C的余弦相似度,然后选择相似度最高的5K个文本作为投毒文本集Textp。
锚定图像生成
Nightshade需要为每个投毒文本生成相应的“锚定图像”。锚定图像是模型在非投毒状态下根据目标概念C所生成的原型图像。
为此,Nightshade使用可访问的非投毒生成模型,以“一张{A}的照片”或者“一副{A}风格的画”的形式查询目标概念A,生成Np副锚定图像集Imageanchor。这些锚定图像为后续的图像优化提供目标指导。
优化图像扰动
这是关键的一步,Nightshade使用优化方法为每一个投毒文本生成经过扰动的对应图像,以取代原始的锚定图像。
对每个投毒文本t,找到其对应的自然图像xt。以xt为基础,计算一个小的扰动量δ,使得xt δ在特征提取器F下接近锚定图像xa。
这一步的目的是让最终的投毒图像在视觉上类似自然图像,而内在特征却接近锚定图像,以实现投毒效果。
生成投毒数据
经过上述步骤,每一个投毒文本t都对应一个经过优化的投毒图像x'。将它们组合成文本/图像配对,构成最终的投毒数据集{Textp/Imagep}。
然后将优化后的毒数据与正常训练数据一起用于训练目标生成模型。毒数据会导致模型在生成与概念C相关的图像时产生巨大错误。
Nightshade的其他作用
Nightshade除了可帮助艺术家们保护自己的画作数据,这为大模型的训练、安全等起到了关键的警示作用。
揭示了训练数据稀疏性问题:Nightshade的数据攻击主要利用了当前模型训练数据中概念稀疏性这个漏洞。这说明需要收集更丰富和多样化的数据,提高每个概念的训练密度,增强模型的鲁棒性。
新的数据对抗训练:Nightshade这种对抗攻击数据可以服务于对抗训练,提升模型对抗扰动的鲁棒性,带来了一种全新的对抗训练思路。
大模型也容易被攻击:Nightshade的出现,表明当前模型存在安全隐患,需要进行安全性设计和评估,提高对抗攻击的安全意识。
康奈尔大学研究AI模型安全的教授 Vitaly Shmatikov表示,我们还没有准备好,如何应对那些针对大模型的攻击措施,也没有看到哪些大模型被攻击过。
Nightshade很好地揭露了AI模型所存在的一些安全漏洞,这对于搭建防御体系非常有帮助。
本文素材来源Nightshade论文,如有侵权请联系删除
我被《长相思》里的AI相柳,硬控了整整两小时
从周一开始,每天晚上我女朋友下班回家,我都能看到她被硬控在客厅,看剧。还给自己看的一把鼻涕一把泪,看的没事就哇哇哭。我说公司咋滴你了,天天PUA你?她说那倒没有,就是这剧太感人了。我一看剧名,《长相思》第二季。她非拉我一块看,我说我不看,这明显就不是我的菜。然后前天,在一个群里,另外一群朋友们跟打了鸡血似的,疯狂给别人安利:“《长相思》必须给我去看!”,‘’相柳太帅了啊啊啊啊啊啊!”。站长网2024-07-11 18:12:230001MidJourney创始人透露公司名字的灵感源自庄子的“中道”
MidJourney创始人大卫·霍尔茨在2023世界人工智能大会上分享了他对人工智能发展的观点。他表示,他喜欢阅读科幻文学和中国古典文学,并从中汲取灵感。他将公司的名字MidJourney来源于庄子的庄周梦蝶,寓意着人工智能技术应该走在中间的道路上。站长网2023-07-08 14:06:260001TikTok Lite 在欧洲暂停奖励功能 监管机构担忧其可能引发成瘾
据国外媒体报道,TikTok在欧洲推出的轻量级应用TikTokLite遇到了监管障碍。该应用程序包含一项奖励功能,允许用户通过观看视频、点赞等操作获得虚拟货币"硬币",并兑换亚马逊优惠券或贝宝礼品卡等物品。不过,欧洲监管机构对这一功能提出了担忧,认为它可能会导致用户特别是年轻人产生成瘾行为。根据欧盟《数字服务法案》,监管机构已经就此展开调查。站长网2024-04-25 20:00:390000OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
Anthropic的模型可解释性团队,从大模型中看到了它的「灵魂」——一个可解释的更高级的模型。为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。Anthropic发表的一项研究声称能够看到了人工智能的灵魂。它看起来像这样:0000英特尔推出新一代 Lunar Lake 芯片,将应用于 AI PC
划重点:⭐英特尔计划在今年第三季度推出LunarLake笔记本处理器,旨在为CopilotPlusPC带来全新的AI体验。⭐LunarLake芯片将采用CPU、集成的Xe2GPU和神经处理单元(NPU),提供比其前身MeteorLake更高的三倍AI性能。站长网2024-05-21 11:29:240000