3万亿的开放数据集AI2 Dolma发布

站长网2023-08-22 14:57:200阅

即使有许多公开的数据集，也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标，以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据，还为人工智能的发展开辟了新的可能性。

AI2Dolma 是一个开放的预训练数据集，包含3万亿个标记。它由 Allen AI 研究所创建，用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究，并提供一个透明和开放的平台。

项目地址:https://huggingface.co/datasets/allenai/dolma

Dolma 数据集包含了来自各种来源的文本，如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。

Dolma 的创建过程包括数据处理步骤，如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比，Dolma 采取了更多的透明度，提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布，并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。

特点:

1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集，包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。

2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证，可以供其他研究人员使用和研究，促进了整个研究社区的合作和发展。

3. 代表性:AI2Dolma 的数据集与其他语言模型数据集（无论是闭源还是开源）具有相似的来源和处理方式，确保了模型在广泛领域的能力和行为与其他语言模型一致。

4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的，其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。

5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施，包括个人信息的删除、有害内容的过滤等，以最大程度地降低数据使用可能带来的风险。

6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据，但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言，从而满足不同语言背景下的研究需求。

3万亿的开放数据集AI2Dolma发布

0000

评论列表

共(0)条

相关推荐

站长资讯
微信新版本，几大实用功能更新
近日，微信发布了8.0.48测试版本。这次更新涉及到了视频号、朋友圈、静音、表情包等功能的变化，更新了很多比较实用的功能，快来和我们一起看看这些新变化。01视频号能投屏了新版本微信中，在视频号中出现了新功能:可直接进行投屏。具体操作为:视频号某一作品下，点击分享按钮，在分享的选项中选择「投屏」功能。点击「投屏」后，即可将视频号内容投屏到其他设备上。
站长网2024-03-12 15:37:12
0000
站长资讯
英伟达 CEO 黄仁勋：芯片制造是 AI 的「理想应用」下一波浪潮是「具身人工智能」
英伟达创始人兼首席执行官黄仁勋周二在比利时安特卫普举行的ITFWorld2023半导体会议上表示，芯片制造是英伟达加速和人工智能计算的「理想应用」。他详细阐述了计算技术的最新进展如何加速「世界上最重要的产业」，并通过视频向来自半导体、科技和通信行业的领导人发表讲话。
站长网2023-05-18 09:56:02
0000
站长资讯
马斯克推出名为 Grok 的具有「叛逆倾向」的人工智能聊天机器人
特斯拉首席执行官马斯克最近推出了一款名为Grok的人工智能聊天机器人，该机器人受到《银河系漫游指南》的启发，具有「叛逆倾向」（rebelliousstreak）。尽管在上周警告说AI是「人类面临的最大威胁之一」，但马斯克表示，这款与ChatGPT竞争的聊天机器人将在测试后向他的X平台的高级订阅用户提供。
站长网2023-11-06 09:08:13
0000
站长资讯
市场监管总局修订出台禁止滥用知识产权排除、限制竞争行为规定
据国家市场监督管理总局消息，为鼓励创新，维护知识产权领域公平竞争的市场秩序，助力全国统一大市场建设和知识产权强国建设，结合近年来反垄断监管执法的新形势、新情况、新问题，市场监管总局修订出台了《禁止滥用知识产权排除、限制竞争行为规定》，将于2023年8月1日起正式施行。
站长网2023-06-30 01:34:59
0001
站长资讯
考勤打卡提醒异常！钉钉紧急修复官方道歉：耽误大家准点下班了
快科技8月1日消息，今日晚间，钉钉官博发文，称今天下午17点30分，钉钉考勤打卡的提醒出现异常（实际打卡已成功，仅返回信息有延迟），经紧急处理，该异常已经于17点45分修复完毕。钉钉表示:耽搁大家准点下班万分抱歉!（下次就算崩也尽量在上班的时候崩）”。有网友调侃道，我以为我们公司崩了，原来是你崩了”点了多次，还以为是自己网络有问题，原来是你”。
站长网2023-08-01 21:35:01
0000