AI2发布大语言模型开源数据集Dolma 包含3万亿个token
站长网2023-08-25 10:54:080阅
文章概要:
1. AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。
2. Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。
3. Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。
美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。

Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。
Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。

Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。
Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。
在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。

项目网址:https://huggingface.co/datasets/allenai/dolma
0000
评论列表
共(0)条相关推荐
美国银行人工智能驱动的聊天机器人 Erica 客户交互次数已超过 15 亿次
美国银行当地时间周二公布的第二季度利润和收入超出预期,因该公司在利率上升的情况下获得了更多利息收入。美银首席执行官BrianMoynihan)在新闻稿中表示:「我们继续看到美国经济健康发展,但增长速度较慢,就业市场富有弹性。」「我们业务范围内客户的持续有机增长和客户活动补充了利率上升的有利影响。」站长网2023-07-19 20:14:460000英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8Ttoken上完成了训练。值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。论文地址:https://arxiv.org/abs/2402.16819在7个评估基准上,与同等参数规模的模型相比,Nemotron-415B表现出色。甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。站长网2024-03-01 09:37:300000PixelPlayer:能自动从视频中识别和分离不同的声音源
PixelPlayer是MIT研究团队开发的项目,能够自动从视频中识别和分离出不同的声音源,并与画面位置匹配。这种能力使得系统能够识别视频中的不同声音来源,如不同乐器的声音,分别提取和分离这些声音源的声音,而无需人工标注数据。项目地址:https://top.aibase.com/tool/pixelplayer站长网2024-02-22 11:36:00000151岁的退休阿姨,在四线城市逐梦互联网
“他打了一个急方向,车就窜上树了。我在天上飞的时候,心里说完了完了,要去死了,不能死啊我还有好多事没做,闭着眼念了十声阿弥陀佛,车落在地上,我眼睛一睁,嘿,还活着。”大雨中的高速路旁,雪姨站在被撞烂的轿车前——这是她曾经努力销售的回报之一,后备箱里的保险单、宣传单在雨里飞,送客户的油洒了一地。眼前饭桌上没人夹菜,全被她的话抓住了视线:“那一刻我突然不想干保险了,哪怕去要饭都不再干了!”站长网2023-07-12 18:01:150000既生小川,何生彦宏
王小川又怼起了李彦宏。他在采访中反驳李彦宏观点的内容片段截图今天在圈子里流传,既抓眼球,又让人惊愕。其实,这是他第N次怼百度了。又和李彦宏“杠”上了称媒体采访的是平行世界的李彦宏百度,或者说李彦宏至于王小川来说,可能恰好就是他无法释怀的“疙瘩”。近年来,王小川屡次三番“辣评”百度。而今年百度、王小川前后脚宣布入局大模型事业后,王小川又针对李彦宏的观点发表了不同看法。站长网2023-04-13 14:22:390000