首页站长资讯作者指控 Meta 不顾自己律师的警告，将受版权保护的书籍用于人工智能训练

作者指控 Meta 不顾自己律师的警告，将受版权保护的书籍用于人工智能训练

站长网2023-12-13 12:03:080阅

Meta 在一起夏季提起的版权侵权诉讼中的最新提交文件显示，尽管律师警告使用数千本盗版书籍训练其 AI 模型的法律风险，该公司仍然这样做了。

周一晚间提交的新文件整合了针对 Facebook 和 Instagram 所有者的两起诉讼，由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他著名作者提起。他们指控 Meta 未经许可使用他们的作品训练其人工智能语言模型 Llama。

上个月，加州法官驳回了 Silverman 诉讼的一部分，并表示将允许作者修改他们的指控。Meta 尚未对这些指控作出回应。

周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器上讨论数据集采购的聊天记录，这可能是一个重要证据，表明 Meta 知道其使用这些书籍可能不受美国版权法保护。

在起诉中引用的聊天记录中，研究员 Tim Dettmers 描述了他与 Meta 法律部门就使用书籍文件作为训练数据是否「合法」进行的讨论。

Dettmers 在 2021 年写道，他提到 Meta 承认用来训练 Llama 第一版的一个数据集「The Pile」，「在 Facebook，有很多人有兴趣使用 (The Pile)，包括我自己，但以其当前形式，我们因法律原因无法使用它。」

根据起诉，Dettmers 在前一个月写道，Meta 的律师告诉他「如果数据被用来训练模型或发布，则不能使用该数据」。

尽管 Dettmers 没有详细描述律师的担忧，但聊天中的其他人指出，「仍在享有版权的书籍」可能是最大的担忧来源。他们表示，对数据的训练应该「属于合理使用范畴」，这是一种保护版权作品某些未经许可使用的美国法律原则。Dettmers 表示，他目前无法立即对这些指控发表评论。

今年，科技公司面临了一系列来自内容创作者的诉讼，他们指控这些公司剽窃受版权保护的作品，以构建在全球引起轰动并引发投资热潮的生成型 AI 模型。

如果这些案件成功，可能会抑制生成型 AI 的热潮，因为它们可能会通过迫使 AI 公司补偿艺术家、作者和其他内容创作者使用其作品而提高构建数据密集型模型的成本。

同时，欧洲新的临时人工智能法规可能会迫使公司披露用于训练模型的数据，从而可能使它们面临更多法律风险。

Meta 在 2 月发布了其 Llama 大型语言模型的第一个版本，并公布了用于训练的数据集列表，包括「ThePile」的 Books3 部分。根据起诉，组建该数据集的人称其包含 196，640 本书。

Llama 2 对月活跃用户少于 7 亿的公司免费使用。其发布在科技领域被视为生成型 AI 软件市场的潜在游戏规则改变者，威胁到像 OpenAI 和 Google 这样的主导者，后者对其模型的使用收费。

作者指控Meta不顾自己律师的警告将受版权保护的书籍用于人工智能训练

0000

评论列表

共(0)条

相关推荐

“人均存款27万”的年轻人，还是不敢花钱
“现在的年轻人都有存款吗?”近期#北京人均存款已接近27万#这一话题引发网友热议。根据央行数据显示，一季度人民币存款增加15.39万亿元，第一财经结合央行、地方统计局公布的数据，梳理了全国省市自治区直辖市截至2022年的数据发现，北京人均本外币住户存款接近27万元，排名第一。但很多网友表示自己被平均了，认为这一数字过高，且人均意义不大，更多应该看看中位数。
站长网站长资讯2023-04-17 09:17:53
0000
站长资讯
谷歌AI搜索功能展示更多视频和优质链接
本文概要-谷歌的人工智能搜索生成体验正在增加图像和视频功能。-视频功能对于搜索体验非常重要，谷歌已经将YouTube逐渐整合到搜索结果中。-SGE摘要中已经开始显示发布日期和图片。谷歌的人工智能搜索正在加强图像和视频功能。如果启用基于AI的SGE功能，用户可以在搜索结果顶部的彩色摘要框中看到更多的多媒体内容。
站长网2023-08-03 10:05:08
0000
站长资讯
投B站，比你想象中赚钱
1这几年老是有人质疑B站的商业价值，还有人直接说投B站压根就没意义。但这种刻板印象其实挺离谱的，有的品牌在B站玩不转，真的能怪B站没商业价值吗?你不能玩儿MOBA开局送人头，打一半挂机，然后说这游戏根本没法赢对吧。菜就多练，输不起就别玩，不要甩锅给平台。你都根本不知道B站是个什么样的社区，直接拿着过去在传统门户网站批量投垃圾广告的思路做B站了，那可不就是要被吊起来打。
站长网2024-01-13 10:31:26
0002
站长资讯
德国将对OpenAI的ChatGPT数据使用情况展开调查
继意大利，德国数据保护机构现在也正在加强对ChatGPT的监管，德国联邦州数据保护专员们同启动了相应的行政程序。德国AI工作组负责人迪特·库格尔曼表示，“如果使用个人数据，包括作为AI的训练数据，必须有法律依据，我们必须知道数据来自何处。”
站长网2023-04-21 11:55:54
0000
站长资讯
阿里魔搭社区开源 Mistral AI 旗下新模型 Mistral7B
阿里巴巴达摩院模型开源社区ModelScope宣布开源法国人工智能初创公司MistralAI旗下新模型Mistral7B，可免费商用。据悉，Mistral7B在公开提供的指令数据集上进行了微调后的模型Mistral7BInstruct，在MT-Bench上超越了其他7B模型，并可与13B聊天模型相媲美。mistral-7b-instruct模型链接:
站长网2023-10-16 08:35:09
0000