作者指控 Meta 不顾自己律师的警告,将受版权保护的书籍用于人工智能训练
Meta 在一起夏季提起的版权侵权诉讼中的最新提交文件显示,尽管律师警告使用数千本盗版书籍训练其 AI 模型的法律风险,该公司仍然这样做了。
周一晚间提交的新文件整合了针对 Facebook 和 Instagram 所有者的两起诉讼,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他著名作者提起。他们指控 Meta 未经许可使用他们的作品训练其人工智能语言模型 Llama。
上个月,加州法官驳回了 Silverman 诉讼的一部分,并表示将允许作者修改他们的指控。Meta 尚未对这些指控作出回应。
周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器上讨论数据集采购的聊天记录,这可能是一个重要证据,表明 Meta 知道其使用这些书籍可能不受美国版权法保护。
在起诉中引用的聊天记录中,研究员 Tim Dettmers 描述了他与 Meta 法律部门就使用书籍文件作为训练数据是否「合法」进行的讨论。
Dettmers 在 2021 年写道,他提到 Meta 承认用来训练 Llama 第一版的一个数据集「The Pile」,「在 Facebook,有很多人有兴趣使用 (The Pile),包括我自己,但以其当前形式,我们因法律原因无法使用它。」
根据起诉,Dettmers 在前一个月写道,Meta 的律师告诉他「如果数据被用来训练模型或发布,则不能使用该数据」。
尽管 Dettmers 没有详细描述律师的担忧,但聊天中的其他人指出,「仍在享有版权的书籍」可能是最大的担忧来源。他们表示,对数据的训练应该「属于合理使用范畴」,这是一种保护版权作品某些未经许可使用的美国法律原则。Dettmers 表示,他目前无法立即对这些指控发表评论。
今年,科技公司面临了一系列来自内容创作者的诉讼,他们指控这些公司剽窃受版权保护的作品,以构建在全球引起轰动并引发投资热潮的生成型 AI 模型。
如果这些案件成功,可能会抑制生成型 AI 的热潮,因为它们可能会通过迫使 AI 公司补偿艺术家、作者和其他内容创作者使用其作品而提高构建数据密集型模型的成本。
同时,欧洲新的临时人工智能法规可能会迫使公司披露用于训练模型的数据,从而可能使它们面临更多法律风险。
Meta 在 2 月发布了其 Llama 大型语言模型的第一个版本,并公布了用于训练的数据集列表,包括「ThePile」的 Books3 部分。根据起诉,组建该数据集的人称其包含 196,640 本书。
该公司并未透露其最新版本模型 Llama 2 的训练数据,该模型已于今年夏天投入商业使用。
Llama 2 对月活跃用户少于 7 亿的公司免费使用。其发布在科技领域被视为生成型 AI 软件市场的潜在游戏规则改变者,威胁到像 OpenAI 和 Google 这样的主导者,后者对其模型的使用收费。
微软Xbox拥抱AI 走量内卷加剧
游戏AI内卷又迎来新的大玩家,微软发布公告称与InworldAI公司建立合作关系,将生成式AI模型的强大功能带入游戏开发。近两年,游戏行业AIGC进击的消息蔚然成风。无论是公开财报还是演讲发声,AI与行业、公司、产品结合成为无法回避的环节,市场、企业、资本包括股民都聚焦于此。站长网2023-11-09 15:54:380001百度规范流量环节传播秩序 处置违规问题账号2555个
昨日,百度公布了“清朗·规范重点流量环节网络传播秩序”专项工作的工作进展。百度表示,本阶段共排查处置违规采编新闻信息、仿冒新闻媒体等违规问题账号2555个,包括涉及仿冒新闻主播账号2174个,涉及炮制新闻虚假信息账号20个,涉及“自媒体”违规发布导向不良时政信息361个。清理违规信息201条。站长网2023-04-21 08:37:340003智源开源最强检索排序模型 BGE Re-Ranker v2.0
智源研究院推出了新一代检索排序模型BGERe-Rankerv2.0,支持100种语言,文本长度更长,并在多项评测中达到了SOTA(state-of-the-art)的结果。该模型是智源团队在BGE(BAAIGeneralEmbedding)系列基础上的新尝试,扩展了向量模型的“文本图片”混合检索能力。站长网2024-03-22 02:31:580002大型云服务提供商将 AMD 的 AI 芯片视为英伟达的替代品
据DIGITIMES消息,业内人士称,大型云服务提供商正在考虑使用AMD的MI300系列AIGPU作为英特尔GPU的替代品,例如H100,而后者已经供不应求。图片来自AMD站长网2023-07-21 12:09:270000百度与孚宝智能合作 百度灵医大模型将接入孚宝机器人
近日,百度灵医智惠与浙江孚宝智能科技有限公司签署战略合作协议。双方将发挥各自技术、产品、市场优势,推动医疗康养机器人的技术创新和服务升级,为智慧康养产业注入创新动能。站长网2023-11-30 09:42:200000