谷歌承认“窃取”OpenAI模型关键信息:成本低至150元,调用API即可得手
什么?谷歌成功偷家OpenAI,还窃取到了gpt-3.5-turbo关键信息???
是的,你没看错。
根据谷歌自己的说法,它不仅还原了OpenAI大模型的整个投影矩阵(projection matrix),还知道了确切隐藏维度大小。
而且方法还极其简单——
只要通过API访问,不到2000次巧妙的查询就搞定了。
成本根据调用次数来看,最低20美元以内(折合人民币约150元)搞定,并且这种方法同样适用于GPT-4。
好家伙,这一回奥特曼是被将军了!

这是谷歌的一项最新研究,它报告了一种攻击窃取大模型关键信息的方法。
基于这种方法,谷歌破解了GPT系列两个基础模型Ada和Babbage的整个投影矩阵。如隐藏维度这样的关键信息也直接破获:
一个为1024,一个为2048。
所以,谷歌是怎么实现的?
攻击大模型的最后一层
该方法核心攻击的目标是模型的嵌入投影层(embedding projection layer),它是模型的最后一层,负责将隐藏维度映射到logits向量。
由于logits向量实际上位于一个由嵌入投影层定义的低维子空间内,所以通过向模型的API发出针对性查询,即可提取出模型的嵌入维度或者最终权重矩阵。
通过大量查询并应用奇异值排序(Sorted Singular Values)可以识别出模型的隐藏维度。
比如针对Pythia1.4B模型进行超过2048次查询,图中的峰值出现在第2048个奇异值处,则表示模型的隐藏维度是2048.

可视化连续奇异值之间的差异,也能用来确定模型的隐藏维度。这种方法可以用来验证是否成功从模型中提取出关键信息。
在Pythia-1.4B模型上,当查询次数达到2047时出现峰值,则表明模型隐藏维度大小为2048.

并且攻击这一层能够揭示模型的“宽度”(即模型的总体参数量)以及更多全局性的信息,还能降低一个模型的“黑盒程度”,给后续攻击“铺路”。
研究团队实测,这种攻击非常高效。无需太多查询次数,即可拿到模型的关键信息。
比如攻击OpenAI的Ada和Babbage并拿下整个投影矩阵,只需不到20美元;攻击GPT-3.5需要大约200美元。
它适用于那些API提供完整logprobs或者logit bias的生成式模型,比如GPT-4、PaLM2。

论文中表示,尽管这种攻击方式能获取的模型信息并不多,但是能完成攻击本身就已经很让人震惊了。
已通报OpenAI
如此重要的信息被竞争对手以如此低成本破解,OpenAI还能坐得住吗?
咳咳,好消息是:OpenAI知道,自己人还转发了一波。

作为正经安全研究,研究团队在提取模型最后一层参数之前,已征得OpenAI同意。
攻击完成后,大家还和OpenAI确认了方法的有效性,最终删除了所有与攻击相关的数据。
所以网友调侃:
一些具体数字没披露(比如gpt-3.5-turbo的隐藏维度),算OpenAI求你的咯。

值得一提的是,研究团队中还包括一位OpenAI研究员。


这项研究的主要参与者来自谷歌DeepMind,但还包括苏黎世联邦理工学院、华盛顿大学、麦吉尔大学的研究员们,以及1位OpenAI员工。
此外,作者团队也给了防御措施包括:
从API下手,彻底删除logit bias参数;或者直接从模型架构下手,在训练完成后修改最后一层的隐藏维度h等等。
基于此,OpenAI最终选择修改模型API,“有心人”想复现谷歌的操作是不可能了。
但不管怎么说:
谷歌等团队的这个实验证明,OpenAI锁紧大门也不一定完全保险了。
(要不你自己主动点开源了吧)
论文链接:
https://arxiv.org/abs/2403.06634
参考链接:
https://twitter.com/arankomatsuzaki/status/1767375818391539753
1条视频报价近35万元,短剧公司不拼投流拼做号
不想给平台“打白工”的短剧公司们,正在努力探索新玩法。有人押注品牌短剧、文旅短剧,也有人选择经营平台账号,尝试摆脱对小程序的依赖,并逐渐摸索出了一条新路径。最近,新榜旗下抖音数据工具新抖的涨粉榜上就出现了这样两个新账号:“指间短剧”曾30天涨粉158万,“疏影短剧”30天涨粉138万,累计涨粉296万。两个账号均属于头部短剧公司触摸文化,可以为观众提供短剧付费观看服务。站长网2024-06-24 02:08:000000微软 OneDrive 将迎来全新升级:Copilot 将为用户提供更多 AI 功能
站长之家(ChinaZ.com)10月8日消息:微软日前宣布将对OneDrive进行更新,旨在使人们更容易访问、查看、分享和管理他们的文件。在本周的在线活动中,被称为「微软OneDrive:文件管理的未来已经来临」,微软公司公布了其在线文件存储服务的计划,其中一些已经对特定用户生效,而其他一些将在今年晚些时候或明年初开始推出。站长网2023-10-08 15:13:410000这下二创视频不用再担心版权了!
视频号近日新增新功能权益——影视创作授权。授权中明确表示,在允许的创作范围内,授权片单中影片可以用来做二次创作。这种公开片单可以说是为二创类视频创作者提供了一个明确的版权红线,帮助创作者在红线范围内能够更自由地使用影片。同时对于版权方来说,这种方式也能够明确告知影视的版权范围与界限。于双方而言,皆是一大利好。站长网2023-12-05 09:15:44000130平小店月入30万,大牌重仓的餐饮卫星店真的这么好赚?
仓库,厨房,再加一个打包的区域,就成了连锁餐饮品牌的“新妆”——卫星店。据亿邦动力不完全统计,目前,农耕记、老乡鸡、海底捞、醉得意、大龙燚、木屋烧烤等中式餐饮品牌均布局了卫星店。2023年底以来,餐饮行业中出现卫星店风潮,一些品牌自发地尝试纯外卖的轻量级店铺,这种“效率型”新模式也牵动了平台的关注。这样的小店,之前叫做“只做外卖”的门店。如今,这种店有了个洋气的新名字——卫星店。站长网2024-08-16 09:13:090000腾讯发布视频生成模型AnimateZero 效果秒杀Animatediff更好地兼容SD生态
腾讯近期发布了一款名为AnimateZero的视频生成模型,据称,该模型的效果比Animatediff要好得多,并且能够更好地兼容现有的SD生态,并采用了社区SD模型进行演示。项目地址:https://vvictoryuki.github.io/animatezero.github.io/站长网2023-12-12 19:04:4000010