反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用
本文概要:
1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。
2. "Books3" 数据集包含了37GB 的文本,用于训练人工智能模型,已被多家公司使用。
3. 反盗版组织表示 AI 对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。
近日,反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源,包含了37GB 的文本,用于训练人工智能模型。
Books3存储库包含196,640本书,全部采用 plain.txt 格式,旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。
丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书,要求其下线该数据集。该组织表示,Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face(该网站托管了数据卡和 Books3下载链接)以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。
非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分,The Pile 是一个800GB 的开源训练数据块,其中包含22个专门为训练语言模型而设计的其他数据集。
尽管 "Books3" 数据集已被下线,其发布者Shawn Presser(人工智能开发人员和著名开源人工智能支持者) 又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。
尽管如此,大型科技公司在训练 AI 模型时使用版权数据的普遍性,但这些公司并不会公开发布其训练数据,这造成了与个人和非营利项目的不公平竞争。反盗版组织表示,AI 对版权产生了新的挑战,需要加强监管和规范。
据了解,Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中,Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外,OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。
美国证券交易委员会提出新规 对AI在证券交易行为作出要求
美国证券交易委员会(SEC)周三提出了新的规则,要求注册投资顾问和经纪商处理由财富管理者日益使用的人工智能、预测性数据分析和其他工具引起的潜在利益冲突。拟议的规则涵盖了分析、技术和计算功能、相关矩阵、算法、模型或类似方法或过程的使用。该提案现在进入了公众评论期,源于对顾问和经纪商可能以一种优先考虑经纪商的财务利益而非公司客户最佳利益的方式使用预测性数据分析技术的担忧。站长网2023-07-28 16:33:400000撕掉虚拟人「营业脸」 DreamTalk开源释机会
搭上AI大模型的春风,元宇宙概念期出圈的虚拟数字人又火了一把。结合人工智能自然语言大模型,用3D动画、动态捕捉、中之人等技术动起来、说起来的虚拟人,现在拥有“大脑”了。AI化后,原本就能以文字、声音输出内容的虚拟人,在与外界交互时更显智能,输出的内容也在丰富度、专业性上提升了一个档次。更重要的是,AI提高了虚拟人在制作层面的生产力。站长网2024-01-11 11:47:220000不愿被“杀熟”的年轻人,在评论区组团“骂机票”
“不去了,机票涨那么多,亏我那么信任你,越看越涨,辜负了我对你的期待……去哪儿网、同程、飞猪,你们给我看好了,再涨价统统卸载……”寒假在即,春节将至,旅游旺季掀开序幕。而在买机票、订酒店之前,不少年轻人决定先到社交平台上“哭穷”骂一骂。0000ChatGPT每天烧掉500万元!OpenAI被曝已在破产边缘
提到生成式人工智能的突然流行,ChatGPT与其背后的OpenAI是无法绕过的两个名字。但目前有消息指出,OpenAI很可能已经在一步步走向破产,而原因正是让其名声大噪的ChatGPT。快科技8月13日消息,根据AnalyticsIndiaMagazine近日发布的一篇报告,ChatGPT服务每天就要消耗70万美元(约合人民币506万元)左右的成本。站长网2023-08-13 17:40:180001