“盗窃”而来的 3000 亿单词?ChatGPT 摊上事了,遭索赔 30 亿美元!
2016年10月19日,英国剑桥大学理论物理学教授 Stephen Hawking 曾预言:“强大 AI 的崛起,可能将是人类遇到的最好的事情,也可能是最坏的事情。”
此后7年还不到,Stephen Hawking 教授的预言似乎就“成真”了:在近半年的 ChatGPT 热潮下,很多人看见了它的强悍和优势,但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是,近来凭借 ChatGPT 和 GPT-4风头正盛的 OpenAI 和微软,突然就被告了。
上周,16位匿名人士决定起诉微软和 OpenAI,称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下,收集并泄露了他们的个人信息,要求索赔30亿美元。
“盗窃”而来的3000亿单词?
根据这16人提交给加利福尼亚州旧金山联邦法院、长达157页的诉讼书显示,OpenAI 和微软被指控违反了《电子通讯隐私法》,即无视获取 AI 模型数据的合法途径,选择在不付费的情况下收集数据。
“尽管存在购买和使用个人信息的既定程序,但被告(OpenAI 和微软)还是采取了不同的方式:盗窃。”
在最初 ChatGPT 刚爆火的时候,OpenAI 就曾介绍过 ChatGPT 的强大功能,来自大规模预训练——它有3000亿单词的语料库预训练。但原告称,OpenAI 从互联网上的书籍、文章和发帖中所获取的3000亿字内容,远远超过其合理授权的范围。
具体来说,这16人指控 OpenAI 和微软通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息,并且获得的信息范围很广,包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。
原告坚称,在“从全球数百万毫无戒心的消费者那里非法收集个人资料”后,微软和 OpenAI 将其嵌入至他们的 AI 模型中,这才创造出了现在的 ChatGPT 等 AI 产品:
▶ “OpenAI 大规模使用窃取并盗用个人信息,以此创造了强大且利润丰厚的 AI 产品,并不顾风险地将其对外发布。”
▶“OpenAl 的技术价值已高达到数百亿美元,而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训,这些产品才达到了如今的复杂程度。”
除了指控 OpenAI “盗窃”数百万互联网用户的个人隐私,诉讼书中还强调了 OpenAI 和微软之间的密切合作关系:“微软对 OpenAl 持续投资,并在其多个平台上都引入了 ChatGPT,强调其与 OpenAl 合作的深度。通过这些投资,微软还获得了独家使用整个 OpenAI 代码库的权利。”
很少提到 AI 的具体伤害案例
整整157页诉讼书中,引用了大量媒体报道和学术论文,反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解,其中并没有提到多少 AI 对人类的具体伤害案例。
例如,在提到2019年 OpenAI 重组为一家“有限营利企业”时,诉讼书表示 “OpenAI 放弃了最初的目标和原则,选择以牺牲隐私安全和道德为代价来追求利润”,并由此推断 OpenAI 加大了从互联网上“秘密获取”大量个人数据的力度,而不通知这些数据的所有者或用户。
此外,在指控 OpenAI 无视隐私法的同时,文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言:“AI 很可能会导致世界末日,但与此同时,也会出现伟大的公司。”而基于这句话,诉讼书表示:“被告对隐私法的漠视,与他们对人类潜在灾难性风险的漠视不相上下。”
总体而言,在这份157页的诉讼书中,微软和 OpenAI 被指控违反了《电子隐私通信法》,即在没有获得授权的情况下使用私人信息以求牟利。同时,因为插件拦截互动数据,微软和 OpenAI 也违反了《计算机欺诈和滥用法》。
基于以上,考虑到被“盗取”数据的群体应该有数百万人,原告向微软和 OpenAI 提出了30亿美元的索赔。
微软和 OpenAI 并未回应
截至目前,微软和 OpenAI 都没有对这份指控作出回应,而网友对于这起诉讼的讨论早已泛滥。
部分人对于 OpenAI 如何“窃取”并利用个人数据的方式感到好奇,外媒 Firstpost 解释道:“如果你在最近几十年里一直在网上活跃,你的数据就很可能被纳入 OpenAI 的数据集。因此,OpenAI 语言模型产生的任何输出,如果用于盈利,其中就可能包含通过无声搜刮而获得的你的数据片段。”
对此,起诉 OpenAI 的律师事务所方面也进行了补充:用户的个人数据“最初并不是打算给大型语言模型使用的”,所有信息都是 OpenAI 自己去大规模获取的。
至于这场诉讼的最终结果,目前来看应该并不确定。互联网的基础设施很复杂,在线平台与用户有自己的条款和协议,即使用户向这些平台贡献内容,数据所有权也通常属于平台本身而非用户。
对于这个说法,知识产权律师 Katherine Gardner 也是认同的:当用户将内容上传到社交媒体或任何其他网站时,他们通常会授予平台以各种方式使用其内容,因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。
除此之外,也有不少网友打趣起了这30亿美元的索赔金额:
▶ “30亿不够,怎么也得80亿美元,这样我们每个人都能拿到1美元!”
▶“不行,我在网上写了3篇东西呢,得给我3美元才行!”
参考链接:
https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf
https://www.firstpost.com/world/chatgpt-openai-sued-for-stealing-everything-anyones-ever-written-on-the-internet-12809472.html
百度:已经有15万企业申请加入文心一言内测
在今日的百度文心一言技术交流会上,百度公布数据称,截至目前,已经有15万企业申请加入文心一言内测,覆盖政务、金融、媒体、电商零售等行业。其中,内容创作、智能客服、办公提效为各行业通用的高频需求场景。据了解,文心一言于3月16日发布,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。站长网2023-05-09 16:39:320001字节发布视频控制方式Boximator 比Runway运动笔刷更精确
字节研究院发布了一个名为Boximator的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。与Runway的运动笔刷相比,Boximator可以更精确地控制物体的运动结束位置。项目地址:https://top.aibase.com/tool/boximator站长网2024-02-06 09:31:250001加利福尼亚州设定使用生成式人工智能法律实践指南,更多州将效仿
**划重点:**1.🌐**机密性规定**:律师在使用生成式人工智能解决方案时,不得输入客户的任何机密信息,除非律师知道提供者不会与他人分享信息或将其用于自身,比如用于培训或改进其人工智能产品。站长网2023-12-01 14:04:420001罗永浩淘宝直播间招AI科学家岗位备受欢迎 中签率千分之一
近日,罗永浩淘宝直播间上架了一项特殊商品,即AI算法科学家职位。网友们可以直接在直播间中上传他们的简历申请该职位。据了解,该职位所在地为北京,所属于细红线公司,该公司成立于2022年,是罗永浩的另一家创业公司,主要致力于AR技术领域的发展。相关负责人透露,薪酬待遇较为优厚,具体面议。站长网2023-07-16 10:43:510000我们需要什么样的AI搜索?
2024年,从年初到年尾,因为被冠以AI搜索的新闻都搅动着互联网。这个古老赛道似乎焕发了新生。一切始于年初的一则消息。贾清扬只用500行代码搭出来的AI搜索引擎,登顶GitHub趋势榜。作为Facebook和阿里巴巴前高管,贾的这个举动自然引来众多目光,而且被不少从业者解读为,AI搜索似乎不难,大可以尝试一把。0000