AI2发布大语言模型开源数据集Dolma 包含3万亿个token
站长网2023-08-25 10:54:080阅
文章概要:
1. AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。
2. Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。
3. Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。
美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。
Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。
Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。
Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。
Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。
在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。
项目网址:https://huggingface.co/datasets/allenai/dolma
0000
评论列表
共(0)条相关推荐
IP协议详解之IP地址要领
站长网2023-05-24 01:09:580000ChatGPT访问量下降 AI聊天机器人网站热度降温
根据网站流量监测服务商SimilarWeb的数据显示,今年以来,ChatGPT的访问量在1月份环比增长了131.6%,但随后逐月下降。到了5月,这个数字已经跌至2.8%,预计6月将出现环比负增长的情况。不仅是ChatGPT,市面上的主流人工智能聊天机器人网站,流量和订阅用户数量也出现了增长停滞甚至下降的趋势。站长网2023-07-03 18:21:290000小米汽车与理想、小鹏、蔚来开启充电补能网络合作
小米汽车今日宣布,已与理想、小鹏、蔚来三家知名车企达成合作协议,共同拓展充电补能网络。根据合作协议,理想、小鹏、蔚来的充电桩将接入小米充电网络,小米汽车用户将能够通过该网络实时查看充电场站的动态数据,并享受便捷的扫码充电与即插即充服务。0000Sora将亮相 “翠贝卡电影节”,展示5位导演的AI电影作品
划重点:⭐️Sora将在翠贝卡电影节展示5部由AI制作的微电影⭐️5位知名导演通过Sora制作影片,引发关注和讨论⭐️AI技术或将颠覆影视行业的影视制作流程站长网2024-06-01 21:38:290000我,一个虚拟人,自然流量直播卖了8万多,居然不是在抖音淘宝
电影《天下无贼》里,演员葛优说过一句经典台词:“二十一世纪什么最贵?人才!”今天,当直播渗透到电商和本地生活领域,许多中小商家对此深有同感。在三四五线城市,招聘带货主播成了商家的普遍痛点,好主播非常稀缺,而且流动性极强。一位南康家具产业带的老板,曾组建起一个抖音直播团队,主播都很年轻,刚学会就全跑掉了。“刚好起来了,他就提要求加工资,或者被别的地方挖走。”站长网2023-08-15 17:54:210002