登陆注册
12277

Together AI发布RedPajama v2 用于大模型训练

站长网2023-11-06 10:31:311

要点:

1. Together AI发布了RedPajama v2,这是一个包含30万亿标记的开放数据集,用于训练大型语言模型。

2. 这个数据集的目的是提供高质量的数据,以支持开放式大型语言模型的成功发展。

3. 数据集包含来自CommonCrawl和其他公开可用网络数据的原始文本数据,以及超过40个质量注释和去重集群。

Together AI发布了RedPajama v2,这是一个包含30万亿标记的数据集,旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要,但获取适当的数据集是一项繁琐的任务,需要大量时间、资源和金钱。

研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据,其中包括40多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用LLM基准的比较、主题建模和分类注释等内容,以促进更深入的研究。

地址:https://together.ai/blog/redpajama-data-v2

RedPajama v2的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。这个数据集的覆盖面是前所未有的,涵盖了CommonCrawl的多个处理转储。

通过这一举措,研究人员为语言模型的开发和研究提供了更多的资源和工具,有助于改进模型的性能和应用领域。

这一数据集的发布对于AI研究和应用领域具有重要意义,为开发更强大的语言模型提供了支持和基础,有望推动AI领域的进一步发展。

0001
评论列表
共(0)条