AI2发布大语言模型开源数据集Dolma 包含3万亿个token
站长网2023-08-25 10:54:080阅
文章概要:
1. AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。
2. Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。
3. Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。
美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。
Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。
Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。
Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。
Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。
在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。
项目网址:https://huggingface.co/datasets/allenai/dolma
0000
评论列表
共(0)条相关推荐
OpenAI正在开发SearchGPT 将成Perplexity强有力的竞争对手
OpenAI正在积极开发Perplexity的竞争对手——Sonic-SNC(SearchGPT),目前该工具已经进入评估阶段,并新增了多项实用功能。域名:https://search.chatgpt.comSearchGPT的新增功能包括:图像搜索:用户现在可以进行图像搜索,增强了信息检索的能力。站长网2024-04-27 17:40:470004NVIDIA CEO 称 AI 在五年内可能通过人类测试
划重点:-💡Nvidia首席执行官黄仁勋表示,根据某些定义,人工智能普遍智能(AGI)可能在五年内实现。-💡黄仁勋认为,AI能够通过诸如法律考试等测试,但在特定医学测试方面仍存在困难。-💡关于芯片工厂的问题,黄仁勋表示AI行业需要更多的工厂,但随着时间推移,每颗芯片也会变得更加优化。站长网2024-03-02 13:20:360000微软与英伟达支持的 CoreWeave 签署价值数十亿美元的 AI 算力交易
微软对OpenAI的大规模投资使该公司成为人工智能热潮的中心。但微软并非唯一一个为满足对AI技术服务的激增需求而敞开钱包的公司。据知情人士告诉媒体,微软已同初创企业CoreWeave达成协议,将在未来多年内在云计算基础设施上投入数十亿美元。CoreWeave周三宣布获得2亿美元融资,这笔融资发生在该公司估值达到20亿美元的一个多月后。站长网2023-06-03 22:53:120000谷歌地图将利用AI帮助你找到偏僻的电动汽车充电桩
划重点:🔍利用人工智能总结用户评价,提供更具体的充电桩导航🔋实时显示充电插座可用性和充电速度🚗为电动汽车主提供更多充电相关信息和便利功能谷歌地图即将推出一些新的更新,旨在让寻找电动汽车充电站变得更加轻松。而为了实现这一目标,它将大量依赖人工智能技术。站长网2024-04-19 15:15:59000060分钟送达,到底是不是一门好生意?
大厂齐聚即时零售。一边惊叹于胖东来线下人气,名创优品一边和美团官宣了上线闪电仓的计划,步子迈得很大,一年要开800家。虽然名创给它起了个名字叫做“24小时超级店”,但它有一个大家更熟悉的名字——前置仓。这个被认为是把生鲜电商带进沟里的模式现在有了新的上级分类——即时零售。0000