首页站长资讯LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集

站长网2023-08-21 21:53:480阅

开源数据集因侵权问题，惨遭下架。

如LLaMA、GPT-J等，都用它训练过。

如今，托管了它3年的网站，一夜之间删除了所有相关内容。

这就是Books3，一个由将近20万本图书组成的数据集，大小将近37GB。

丹麦一家反盗版组织表示，在该数据集中发现了150本其成员的书籍，构成侵权，所以要求平台下架。

现在该平台上的Books3网页链接已经“404”。

数据集的最初开发者无奈表示，Books3的下架是开源圈的一场悲剧。

Books3是什么?

Books3在2020年发布，由AI开发者Shawn Presser上传，被收录在Eleuther AI的开源数据集Pile中。

它总计包含197000本书，包含来自盗版网站Bibliotik的所有书籍，意在对标OpenAI的数据集，但主打开源。

这也是Books3名字的来源之处——

GPT-3发布后，官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库，不过具体内容一直没有被透露。

开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等，都用上了Books3.

要知道，图书数据一直是大模型预训练中核心的语料素材，它能为模型输出高质量长文本提供参考。

很多AI巨头使用的图书数据集都是不开源，甚至是非常神秘的。比如Books1/2，关于其来源、规模的了解，更多都是各界猜测。由此，开源数据集对于AI圈内相当重要。

为了更方便获取，Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架，说的也是这一平台。

丹麦反盗版组织权利联盟向The Eye提出了下架请求，并且通过了。

不过好消息是，Books3并没有完全消失，还是有其他办法获取的。

Wayback Machine上还有备份，或者可以从Torrent客户端下载。

作者老哥在推特上给出了多个方法。

“没有Books3就没法做自己的ChatGPT”

实际上，对于这次下架风波，数据集作者老哥有很多话想说。

他谈到，想要做出像ChatGPT一样的模型，唯一的方法就是创建像Books3这样的数据集。

每一个盈利性质的公司都在秘密做数据集，如果没有Books3，就意味着只有OpenAI等科技巨头才能访问这些图书数据，由此你将无法做出自己的ChatGPT。

在作者看来，ChatGPT就像是90年代的个人网站一样，任何人都能做是很关键的。

不过由于Books3很大一部分数据来自于盗版网站，所以作者也表示，希望之后能有人做出来比Books3更好的数据集，不仅提升数据质量，而且尊重书籍版权。

这种类似的情况在OpenAI也有发生。

一个多月以前，两位全职作者以未经允许擅自将作品用来训练ChatGPT，起诉了OpenAI。

而之所以会发生这种情况，很有可能是OpenAI的数据集Books2从影子图书馆（盗版网站）中获取了大量数据。

所以也有声音调侃说，AI不仅带来了新的技术突破，也给反盗版组织带来了新任务。

参考链接:

[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/

[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763

[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models

[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

—完—

LLaMA都在用的开源数据集惨遭下架包含近20万本书对标OpenAI数据集

0000

评论列表

共(0)条

相关推荐

站长资讯
刷一天“极速版”APP能赚多少钱？
“看小说就能赚钱”、“刷视频就能赚钱”......号称动动手指就能赚钱的APP越来越多，比如各种极速版的APP、电子书APP、新闻资讯APP、搜索APP等等。很多人也都乐此不疲，一天到晚就是“刷刷刷”。最近一位“阿姨”晒各种“赚钱的APP”收入截图在业内传开，她一天赚了6.85元。那么刷一天这类的APP能赚多少钱呢?三言今天对几个App进行了一番测试。
站长网2023-07-13 21:51:59
0003
站长资讯
从46款AI教育产品，看全球八大市场用户学习偏好
QuestionAI助力作业帮上市的传闻、字节跳动旗下Gauth超越多邻国登顶美国教育总榜、Answer.AI凭借个位数成员的小团队成为北美AI教育第一梯队产品，让市场看到了AI教育的机会。
站长网2024-06-06 17:43:10
0003
站长资讯
自媒体变现要趁早，越晚越不赚钱！
各位村民好，我是村长。多数人做自媒体不赚钱，除了内容不好以外，就是变现太矜持，文绉绉，最终什么钱都没有赚到。村长业余写作近4年，见过很多粉丝量比村长多，内容质量比村长好的博主，竟然不赚钱。同样也有见过粉丝量不如村长，但一个粉丝收益一二百块钱，才1万多粉丝，就能靠公众号变现了一二百万。所以今天村长要和各位正在做以及想要做自媒体的朋友们，聊一聊自媒体变现的事。01不赚钱别做自媒体
站长网2023-08-06 10:45:28
0001
站长资讯
好奇的心上头！9月13日苹果发布会新品全曝光：iPhone 15系列5999元起、21项重大升级
快科技9月3日消息，苹果官方已经定于北京时间9月13日凌晨1点举办新品发布会，主题为好奇心上头”，届时iPhone15系列将如约登场。据悉，此次发布会和去年一样采用提前录制的形式。当然，苹果依然会邀请媒体到ApplePark现场，提供新品体验区。用户可以通过苹果官方网站，iPhone，iPad，Mac和AppleTV上的电视应用程序观看。
站长网2023-09-03 08:43:30
0000
原神之后，蔡浩宇的 AIGC 游戏野望
2024年8月，蔡浩宇在社交媒体就AIGC与游戏开发的话题发表了自己的看法，“将来只有两种类型的人在创造游戏时才有逻辑意义:1.0.0001%的顶尖人才，他们拥有最深刻的理解和卓越的设计技能，组成精英团队，创造出前所未有的东西。2.99%的业余爱好者，他们可以在心血来潮时创造出一款游戏，以满足自己的想法。”
站长网站长资讯2025-04-17 09:07:05
0000