LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集
开源数据集因侵权问题,惨遭下架。
如LLaMA、GPT-J等,都用它训练过。
如今,托管了它3年的网站,一夜之间删除了所有相关内容。
这就是Books3,一个由将近20万本图书组成的数据集,大小将近37GB。
丹麦一家反盗版组织表示,在该数据集中发现了150本其成员的书籍,构成侵权,所以要求平台下架。
现在该平台上的Books3网页链接已经“404”。
数据集的最初开发者无奈表示,Books3的下架是开源圈的一场悲剧。
Books3是什么?
Books3在2020年发布,由AI开发者Shawn Presser上传,被收录在Eleuther AI的开源数据集Pile中。
它总计包含197000本书,包含来自盗版网站Bibliotik的所有书籍,意在对标OpenAI的数据集,但主打开源。
这也是Books3名字的来源之处——
GPT-3发布后,官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库,不过具体内容一直没有被透露。
开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。
比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.
要知道,图书数据一直是大模型预训练中核心的语料素材,它能为模型输出高质量长文本提供参考。
很多AI巨头使用的图书数据集都是不开源,甚至是非常神秘的。比如Books1/2,关于其来源、规模的了解,更多都是各界猜测。由此,开源数据集对于AI圈内相当重要。
为了更方便获取,Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。
而这一次惨遭下架,说的也是这一平台。
丹麦反盗版组织权利联盟向The Eye提出了下架请求,并且通过了。
不过好消息是,Books3并没有完全消失,还是有其他办法获取的。
Wayback Machine上还有备份,或者可以从Torrent客户端下载。
作者老哥在推特上给出了多个方法。
“没有Books3就没法做自己的ChatGPT”
实际上,对于这次下架风波,数据集作者老哥有很多话想说。
他谈到,想要做出像ChatGPT一样的模型,唯一的方法就是创建像Books3这样的数据集。
每一个盈利性质的公司都在秘密做数据集,如果没有Books3,就意味着只有OpenAI等科技巨头才能访问这些图书数据,由此你将无法做出自己的ChatGPT。
在作者看来,ChatGPT就像是90年代的个人网站一样,任何人都能做是很关键的。
不过由于Books3很大一部分数据来自于盗版网站,所以作者也表示,希望之后能有人做出来比Books3更好的数据集,不仅提升数据质量,而且尊重书籍版权。
这种类似的情况在OpenAI也有发生。
一个多月以前,两位全职作者以未经允许擅自将作品用来训练ChatGPT,起诉了OpenAI。
而之所以会发生这种情况,很有可能是OpenAI的数据集Books2从影子图书馆(盗版网站)中获取了大量数据。
所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。
参考链接:
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/
—完—
阿里达摩院开源开放域文本理解大模型SeqGPT
阿里达摩院宣布,自研开放域文本理解大模型登陆魔搭社区。SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。该模型基于Bloomz在数以百计的任务数据上进行指令微调获得。模型可以在低至16G显存的显卡上免费使用。站长网2023-08-30 14:24:550000再见了Lightning! iPhone15迎来USB-C时代
据国外媒体报道,苹果公司下一代iPhone15几乎可以肯定会配备USB-C端口,取代目前的Lightning连接器。这主要是由于欧盟的一项新法规要求在欧盟国家销售的所有手机必须使用USB-C端口进行充电。尽管这一要求要到2024年才会正式生效,但各种迹象表明,苹果已经做好了在iPhone15上使用USB-C的准备。站长网2023-09-12 09:36:490000AI日报:Coze海外版支持GPT-4o;星火大模型今年7月将达GPT-4水平;Domo AI上线对口型视频功能;Animatediff魔法视频外网爆火
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节Coze海外版支持GPT-4o站长网2024-05-24 10:26:490000京东618:首购新用户同比增长超30% 特斯拉充电装备双TOP1
5月31日晚8时,京东618全面开启,截止6月1日24时,京东618带动首购新用户同比增长超30%。开门红4小时,iPhone、小米、荣耀、华为、一加、iQOO、三星手机成交额同比增长均超100%;电脑组件全品类,以及NAS网络存储、4K投影仪成交额均超去年618高潮期28小时;开门红28小时,汽车充电装备品类成交额同比去年增20倍,其中,特斯拉充电装备订单量及成交额实现排名双TOP1。站长网2023-06-03 10:46:250000千万粉丝网红东北雨姐发声明回应红薯粉条事件:先行全额退款
近日,百万级粉丝网红东北雨姐售卖的红薯粉条被指成分存疑,引起广泛关注。9月30日晚,东北雨姐发表声明,对占用了大量公共资源表示歉意。她透露,事件发生后,已第一时间将产品送检,初步检测结果显示未检出红薯粉和木薯粉的成分占比,二氧化硫、铝残留、铅等各项检测项目均符合国家食品安全标准。东北雨姐原本打算在检测结果出来后再回应,但由于十一假期影响,官方检测报告尚未出具。站长网2024-10-07 02:23:310000