大模型界的“熊猫烧香”,可对文生图模型造成巨大伤害!
《麻省理工技术评论》分享了一个名为Nightshade的投毒工具,可以对DALL-E、Midjourney 和Stable Diffusion等文生图模型的训练数据造成造成巨大伤害,以帮助艺术家们防止非法爬取其画作数据,用于大模型训练,同时揭露了模型存在的安全隐患。
Nightshade使用的攻击技术和优化策略,可以在保持图像视觉效果不变的情况下,通过很小的扰动改变图像的内在特征,既能起到攻击效果又可以避开检测。
将Nightshade的毒数据融合到训练数据中,会使得模型生成的内容崩溃或出现“驴唇不对马嘴”的情况,例如,生成狗的图片会变成猫,生成汽车的图片会变成牛等。
当多个概念被攻击时, 可以在同一个模型上实现Buff叠加,最高可导致模型提示生成的内容全部失效或无法响应提示。
这极强的毒性让人联想到了10多年前名震天下的“熊猫烧香”病毒,都有隐蔽、繁殖强和Buff叠加的特性。
测试数据显示,Nightshade的攻击成功率极高,只需要大约100个投毒样本就可以使模型在特定提示生成错误的图像,与传统攻击相比,所需的数据量降低90%以上。
论文地址:https://arxiv.org/abs/2310.13828
研究人员通过分析知名训练数据集LAION-Aesthetic的数据特征发现,每个概念在数据集中的训练样本数量极为有限。
用关键词频率和语义频率两个指标衡量各概念在数据集中的稀疏程度时,发现92%以上的概念其训练样本数量不足整个数据集的0.2%,存在非常明显的安全漏洞。
基于这个发现,研究人员开发了Nightshade一种“脏标签”的攻击方法。
文本提示选择
Nightshade首先需要选择相关的文本提示作为投毒攻击的目标。从一个自然图像文本配对数据集中选择包含投毒概念C的文本提示。
为了最大化每一个文本提示对模型的影响,Nightshade选择那些在文本 embedding 空间中与概念C语义最相关的文本提示。
算法是计算每一个文本t与概念C的余弦相似度,然后选择相似度最高的5K个文本作为投毒文本集Textp。
锚定图像生成
Nightshade需要为每个投毒文本生成相应的“锚定图像”。锚定图像是模型在非投毒状态下根据目标概念C所生成的原型图像。
为此,Nightshade使用可访问的非投毒生成模型,以“一张{A}的照片”或者“一副{A}风格的画”的形式查询目标概念A,生成Np副锚定图像集Imageanchor。这些锚定图像为后续的图像优化提供目标指导。
优化图像扰动
这是关键的一步,Nightshade使用优化方法为每一个投毒文本生成经过扰动的对应图像,以取代原始的锚定图像。
对每个投毒文本t,找到其对应的自然图像xt。以xt为基础,计算一个小的扰动量δ,使得xt δ在特征提取器F下接近锚定图像xa。
这一步的目的是让最终的投毒图像在视觉上类似自然图像,而内在特征却接近锚定图像,以实现投毒效果。
生成投毒数据
经过上述步骤,每一个投毒文本t都对应一个经过优化的投毒图像x'。将它们组合成文本/图像配对,构成最终的投毒数据集{Textp/Imagep}。
然后将优化后的毒数据与正常训练数据一起用于训练目标生成模型。毒数据会导致模型在生成与概念C相关的图像时产生巨大错误。
Nightshade的其他作用
Nightshade除了可帮助艺术家们保护自己的画作数据,这为大模型的训练、安全等起到了关键的警示作用。
揭示了训练数据稀疏性问题:Nightshade的数据攻击主要利用了当前模型训练数据中概念稀疏性这个漏洞。这说明需要收集更丰富和多样化的数据,提高每个概念的训练密度,增强模型的鲁棒性。
新的数据对抗训练:Nightshade这种对抗攻击数据可以服务于对抗训练,提升模型对抗扰动的鲁棒性,带来了一种全新的对抗训练思路。
大模型也容易被攻击:Nightshade的出现,表明当前模型存在安全隐患,需要进行安全性设计和评估,提高对抗攻击的安全意识。
康奈尔大学研究AI模型安全的教授 Vitaly Shmatikov表示,我们还没有准备好,如何应对那些针对大模型的攻击措施,也没有看到哪些大模型被攻击过。
Nightshade很好地揭露了AI模型所存在的一些安全漏洞,这对于搭建防御体系非常有帮助。
本文素材来源Nightshade论文,如有侵权请联系删除
确保隐私的代价:私有版ChatGPT费用将高出常规版10倍
快科技5月3日消息,随着ChatGPT的发展与普及,越来越多的用户开始担心人工智能是否能够保证自己的隐私不被泄露。而对于各大企业来说,有三星由于使用ChatGPT导致内部资料泄露一事作为先例,更是很难信任此类AI的安全性。对此,微软作为OpenAI的技术转授权持有者,开始指定一个更为安全”的计划。近日,有知情人士透露,微软计划在本季度晚些时候,推出一款在专用云服务器上运行的ChatGPT。站长网2023-05-03 09:15:4200008天狂收6100颗星,可商用!东京工业、麻省理工等开源Stream Diffusion
加州大学伯克利分校、东洋大学、东京工业大学、麻省理工学院和筑波大学等研究人员,联合开源了一款创新性实时交互图像生成框架——StreamDiffusion。StreamDiffusion的技术创新点在于,将传统的顺序去噪变成流批处理去噪,消除了漫长的等待、交互生成方式,实现了流畅且吞吐量超高的图像生成方法。同时引入了“残差无分类器指导”方法,进一步提升了流批处理的效率和图像质量。0000网友用AnimateDiff插件成动画短片 春夏秋冬场景切换自如
日前,社交平台用户“MachineDelusions”分享了一段令人惊叹的视频,通过使用AnimateDiff视频生成器,她在同一画面中切换了四个季节的景象。这段视频由静态图像与运动力学结合的运动建模模块生成,引起了网友们的广泛关注。站长网2023-10-10 15:37:580001ChatGPT七月份的访问量下降, AI热潮是否消退了?
本文概要:1.ChatGPT的访问量在七月下降,但这可能是因为处于暑假期间。2.谷歌的Bard聊天机器人在七月增长了34.5%,但用户规模仍然较小。3.AI搜索引擎Perplexity.ai在六月和七月均有增长,但总用户数量相对较少。OpenAI的ChatGPT在七月的访问量下降,但这并不意味着AI热潮已经结束。站长网2023-08-15 10:14:510000优酷首部AI辅助生成特效画面的电视剧《大唐狄公案》开播
优酷最新上线的电视剧《大唐狄公案》引人注目,因为它是该平台首个利用人工智能辅助生成特效画面的电视剧,尤其是在展现长安城场景方面。据悉,这部剧采用人工智能技术生成了人流、街景和建筑等场景,完全取代了传统的手工绘制方式。站长网2024-02-19 11:59:040002