Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
划重点:
📌 高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。
📌 Together.ai的研究人员发布了RedPajama-1T,这是一个5TB的数据集,拥有1万亿高质量英语token,而RedPajama-V2则是一个30万亿token的在线数据集。
📌 这个数据集的构建强调了对CommonCrawl的覆盖,包括原始数据、高质量注释和去重集群,为LLM的培训提供了有力的基础。
Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。
对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。因此,获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。

注:图片来自项目官网
此前,Together.ai的研究人员已经发布了RedPajama-1T,这是一个5TB的数据集,其中包含了1万亿高质量的英语token,但他们并未止步于此。RedPajama-V2是它的继续,构建了一个30万亿token的在线数据集。
研究团队认为,RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库,可用作提取高质量数据集的基础,并为深入研究LLM培训数据提供基础。值得注意的是,RedPajama-V2强调了对CommonCrawl的覆盖,包括84个已处理的抓取数据,而且还包括了40多个高质量注释,这些注释是通过多个ML分类器对数据质量、minhash结果等进行的,可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集,通过切片和筛选公开可用的数据。
RedPajama-V2的主要焦点是CommonCrawl,它是从头开始构建的,使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据(纯文本)、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性,并让模型构建者在流水线中进行自己的筛选和重新加权,每个CommonCrawl快照都首先经过CCNet流水线的处理。同时,研究人员还计算了40多个最流行的高质量注释,以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究,并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外,他们还希望随着社区的帮助,逐渐添加更多的高质量信号。
RedPajama-V2包括了1130亿份文档,涵盖了英语、德语、法语、西班牙语和意大利语,是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后,头部和中部分区的文档和token数量减少了60%,但文档数量减少了71%,这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后,数据集减少了大约40%。文本文档占据了数据集的大部分内容,包括高质量注释和去重集群,其布局与CCNet规定的非常相似。
研究团队希望很快扩展他们目前的高质量注释集,包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释,以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。
https://github.com/togethercomputer/RedPajama-Data
小米折叠机皇 MIX Fold 3 登场:5.26mm 超薄设计,高端味十足
今晚,小米在最新的产品发布会上推出了旗舰折叠屏手机小米MIXFold3。这款手机的最大亮点之一是其出色的外观设计。机身单边薄至5.26mm,折叠后的厚度仅为10.96mm,相当于带上保护壳的iPhone。机身采用超窄金属边框和高精拉丝工艺,配合四曲面玻璃后盖,给人一种高端、豪华的感觉。站长网2023-08-14 23:00:3800004000米高空一跃而下、以女性视角重看历史,解锁抖音精选的创作密码
变成一颗流星是什么感觉?@阿宇的疯狂冒险带着这个疑问,自制高速载人飞行翼,从4000多米的高空一跃而下。并通过十几分钟的视频,将这个过程分享给无数抖音用户,最终收获了百万点赞。当下,抖音出现了许多优质创作者,他们创新表达方式,为用户带来新鲜感;深耕领域知识,为用户带来深度知识内容;他们以兴趣为驱动,探索世界与自己的边界,带着用户冲向一个个冒险。站长网2024-12-26 21:25:010000特斯拉车机将可使用苹果播客 应用实时同步内容
特斯拉X平台官方账号近日发布一则消息,宣布苹果播客(Podcast)应用将在下周推出。据特斯拉计划,在未来的“2023假日更新”中,用户将能够在其汽车的启动器上发现苹果播客App。0000ChatGPT代码库变更:新增文本朗读功能 DALL·E 3 新增67种图像风格
2月24日ChatGPT代码库进行了一些变动,与英语语言/翻译文件、图像生成样式图像、工作区设置.groups、ReadAloud/AudioPlayer等相关的一些内容发生了更改!具体如下:站长网2024-02-26 10:24:260002钉钉工作台支持「 AI 生成应用图标」 可快速更换风格
钉钉工作台宣布新增功能,支持AI生成应用图标,让用户可以快速更换工作台图标的风格。主要内容包括:支持AI批量生成图标:管理员可以在工作台设置中选择“生成图标”,然后按需选择合适的风格和颜色。共有5种风格,每种风格都有7种颜色。用户可以先预览效果,确认后生成所有图标,省时高效。同时还可以保留图标替换记录,可以随时恢复历史效果。站长网2024-03-12 08:47:590000