反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用
本文概要:
1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。
2. "Books3" 数据集包含了37GB 的文本,用于训练人工智能模型,已被多家公司使用。
3. 反盗版组织表示 AI 对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。
近日,反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源,包含了37GB 的文本,用于训练人工智能模型。
Books3存储库包含196,640本书,全部采用 plain.txt 格式,旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。
丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书,要求其下线该数据集。该组织表示,Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face(该网站托管了数据卡和 Books3下载链接)以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。
非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分,The Pile 是一个800GB 的开源训练数据块,其中包含22个专门为训练语言模型而设计的其他数据集。
尽管 "Books3" 数据集已被下线,其发布者Shawn Presser(人工智能开发人员和著名开源人工智能支持者) 又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。
尽管如此,大型科技公司在训练 AI 模型时使用版权数据的普遍性,但这些公司并不会公开发布其训练数据,这造成了与个人和非营利项目的不公平竞争。反盗版组织表示,AI 对版权产生了新的挑战,需要加强监管和规范。
据了解,Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中,Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外,OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。
WPP 首席执行官:人工智能在广告中的应用是「机遇」而非威胁
WPP首席执行官MarkRead表示,与一些评论家的担忧相反,人工智能是「优化创意业务的重大机遇」,而不是威胁。他在接受FinancialTimes采访时透露,这家广告巨头已经利用人工智能和自动化工具「放大」其创意作品数年。他还补充说,最成功的创意团队也采用这种方法,将人工智能作为其广告活动中使用的工具。站长网2023-05-12 20:29:100000OpenAI 面临两起网络抓取和侵犯版权的集体诉讼
据国外媒体报道,OpenAI正面临网络抓取和侵犯版权的诉讼,其中一项集体诉讼指控这家人工智能公司以前所未有的规模盗用个人数据,另一项集体诉讼则声称其ChatGPT人工智能模型在未经作者许可的情况下在受版权保护的书籍上进行训练。站长网2023-07-06 16:33:370002Google 承诺向 OpenAI 竞争对手人工智能初创公司 Anthropic 投资 20 亿美元
据CNBC确认,Google已同意向Anthropic投资高达20亿美元,该公司是由前OpenAI执行官创立的人工智能初创企业。该投资承诺包括预付5亿美元的现金注入,以及额外的15亿美元将随着时间的推移投入。Anthropic的发言人向CNBC透露了这一消息。早些时候,华尔街日报已报道了这项计划中的融资事宜。Google的发言人并未立即回应置评请求。站长网2023-10-28 13:49:260000AssemblyAI斩获5000万美元融资 致力构建通用语音模型
随着全球对以人工智能为中心系统的投资达到预计的1540亿美元,初创公司AssemblyAI正迅速崛起,为企业提供创新的“应用人工智能”解决方案。安永的最新调查显示,尽管生成式人工智能的部署前景变得更加复杂,但市场仍然充满活力。站长网2023-12-05 10:12:220000微软发布第四财季财报 人工智能推动其销售额创下历史新高
站长之家(ChinaZ.com)7月26日消息:微软周二公布了多项指标有史以来最强劲的财务季度数据,人工智能给这家拥有48年历史的科技巨头带来了震动。站长网2023-07-26 11:27:090000