作者指控 Meta 不顾自己律师的警告,将受版权保护的书籍用于人工智能训练
Meta 在一起夏季提起的版权侵权诉讼中的最新提交文件显示,尽管律师警告使用数千本盗版书籍训练其 AI 模型的法律风险,该公司仍然这样做了。
周一晚间提交的新文件整合了针对 Facebook 和 Instagram 所有者的两起诉讼,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他著名作者提起。他们指控 Meta 未经许可使用他们的作品训练其人工智能语言模型 Llama。
上个月,加州法官驳回了 Silverman 诉讼的一部分,并表示将允许作者修改他们的指控。Meta 尚未对这些指控作出回应。
周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器上讨论数据集采购的聊天记录,这可能是一个重要证据,表明 Meta 知道其使用这些书籍可能不受美国版权法保护。
在起诉中引用的聊天记录中,研究员 Tim Dettmers 描述了他与 Meta 法律部门就使用书籍文件作为训练数据是否「合法」进行的讨论。
Dettmers 在 2021 年写道,他提到 Meta 承认用来训练 Llama 第一版的一个数据集「The Pile」,「在 Facebook,有很多人有兴趣使用 (The Pile),包括我自己,但以其当前形式,我们因法律原因无法使用它。」
根据起诉,Dettmers 在前一个月写道,Meta 的律师告诉他「如果数据被用来训练模型或发布,则不能使用该数据」。
尽管 Dettmers 没有详细描述律师的担忧,但聊天中的其他人指出,「仍在享有版权的书籍」可能是最大的担忧来源。他们表示,对数据的训练应该「属于合理使用范畴」,这是一种保护版权作品某些未经许可使用的美国法律原则。Dettmers 表示,他目前无法立即对这些指控发表评论。
今年,科技公司面临了一系列来自内容创作者的诉讼,他们指控这些公司剽窃受版权保护的作品,以构建在全球引起轰动并引发投资热潮的生成型 AI 模型。
如果这些案件成功,可能会抑制生成型 AI 的热潮,因为它们可能会通过迫使 AI 公司补偿艺术家、作者和其他内容创作者使用其作品而提高构建数据密集型模型的成本。
同时,欧洲新的临时人工智能法规可能会迫使公司披露用于训练模型的数据,从而可能使它们面临更多法律风险。
Meta 在 2 月发布了其 Llama 大型语言模型的第一个版本,并公布了用于训练的数据集列表,包括「ThePile」的 Books3 部分。根据起诉,组建该数据集的人称其包含 196,640 本书。
该公司并未透露其最新版本模型 Llama 2 的训练数据,该模型已于今年夏天投入商业使用。
Llama 2 对月活跃用户少于 7 亿的公司免费使用。其发布在科技领域被视为生成型 AI 软件市场的潜在游戏规则改变者,威胁到像 OpenAI 和 Google 这样的主导者,后者对其模型的使用收费。
华为轮值董事长胡厚崑:盘古大模型3.0即将发布
华为轮值董事长胡厚崑参加了2023世界人工智能大会,并发表了演讲。他提到,去年年底ChatGPT的出现,把人工智能推向了新的风口。人工智能将帮助我们改写身边的一切。站长网2023-07-06 18:22:260002受AI等推动,英特尔第一季度营收127亿美元、增长9%
划重点:⭐英特尔第一季度营收达到127亿美元,同比增长9%,主要受到计算、人工智能和边缘产品的推动。⭐英特尔推出新的Gaudi3AI加速器,挑战竞争对手Nvidia和AMD,在人工智能领域取得进展。⭐英特尔加速推出AIPC产品,预计到2024年底将超过4000万台AIPC出货量。站长网2024-04-26 12:13:280000百家云发布AIGC新品「市场易」大模型
今日,百家云召开线上发布会,发布业内首款适用于企业市场部内容生产场景的GPT大模型引擎「市场易」。目前市场易已经上线了文案生成、内容发布、传播分析、舆情监测、知识库、体验中心六大功能板块。用户可以在市场易利用自研的大模型GPT技术,简化创作过程,快速生成可用于朋友圈、公众号、小红书、工作邮件、视频拍摄脚本等丰富场景的高质量文案,并且快速完成一键式内容发布。站长网2023-06-21 14:41:150000如何在科学研究中使用AI,避免走偏?
划重点:🔍一项新的统计技术,预测驱动推断(PPI),帮助科研人员安全地使用机器学习预测来验证科学假设。🔍机器学习模型可以加速科学发现,但也可能导致误导性或错误的结果。🔍PPI技术允许科学家在不了解模型错误性质的情况下,纠正大型通用模型的输出,以适应特定科学问题。站长网2023-11-10 11:06:280005世纪大和解:淘宝能从微信买流量了
今年双十一到来前,阿里和腾讯先给了外界一个惊喜。近日,阿里妈妈和腾讯广告官宣合作,将实现淘宝和微信广告流量的全面直连,推出“双11超引爆”计划。简单来说,就是淘宝商家可以借助阿里妈妈的广告系统,到微信视频号、朋友圈、小程序等生态上做流量投放了。这也透露出一个信号,淘宝和微信长达十年的“封锁之战”,终于接近尾声。站长网2023-09-27 09:08:140000