Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
划重点:
📌 高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。
📌 Together.ai的研究人员发布了RedPajama-1T,这是一个5TB的数据集,拥有1万亿高质量英语token,而RedPajama-V2则是一个30万亿token的在线数据集。
📌 这个数据集的构建强调了对CommonCrawl的覆盖,包括原始数据、高质量注释和去重集群,为LLM的培训提供了有力的基础。
Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。
对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。因此,获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。

注:图片来自项目官网
此前,Together.ai的研究人员已经发布了RedPajama-1T,这是一个5TB的数据集,其中包含了1万亿高质量的英语token,但他们并未止步于此。RedPajama-V2是它的继续,构建了一个30万亿token的在线数据集。
研究团队认为,RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库,可用作提取高质量数据集的基础,并为深入研究LLM培训数据提供基础。值得注意的是,RedPajama-V2强调了对CommonCrawl的覆盖,包括84个已处理的抓取数据,而且还包括了40多个高质量注释,这些注释是通过多个ML分类器对数据质量、minhash结果等进行的,可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集,通过切片和筛选公开可用的数据。
RedPajama-V2的主要焦点是CommonCrawl,它是从头开始构建的,使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据(纯文本)、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性,并让模型构建者在流水线中进行自己的筛选和重新加权,每个CommonCrawl快照都首先经过CCNet流水线的处理。同时,研究人员还计算了40多个最流行的高质量注释,以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究,并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外,他们还希望随着社区的帮助,逐渐添加更多的高质量信号。
RedPajama-V2包括了1130亿份文档,涵盖了英语、德语、法语、西班牙语和意大利语,是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后,头部和中部分区的文档和token数量减少了60%,但文档数量减少了71%,这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后,数据集减少了大约40%。文本文档占据了数据集的大部分内容,包括高质量注释和去重集群,其布局与CCNet规定的非常相似。
研究团队希望很快扩展他们目前的高质量注释集,包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释,以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。
https://github.com/togethercomputer/RedPajama-Data
国家邮政局:二季度顺丰、邮政、中通快递72小时准时率较高
7月28日,国家邮政局发布关于2023年第二季度快递服务满意度调查和时限准时率测试结果的通告。2023年监测对象包括9家快递服务品牌,具体为:邮政速递、顺丰速运、中通快递、圆通速递、韵达速递、申通快递、京东快递、德邦快递和极兔速递。调查范围覆盖50个城市,包括各直辖市、省会城市和19个快递业务量较大的城市。站长网2023-07-28 15:12:160000震撼!GPT-4 Turbo级国产大模型登场,周冠宇F1赛事数据秒分析惊呆国际大佬
中国的大模型,已经震惊了外国科技圈。这不,这几天商量大模型的更新,直接让外国网友惊呼:太疯狂了,中国的AI界究竟还有多少我们不知道的巨变?不怪这些网友太大惊小怪——最近全新升级的日日新·商量大模型5.0(SenseChatV5),在基础能力上再次重大更新,直接把大模型能力升级到新的阶段,直观印象可感的那种。站长网2024-04-27 20:52:5200001.6亿倒手子公司,这家公司赶着在今年扭转亏损
前段时间星辉娱乐表示「2023年是公司积极梳理业务主线、优化公司资源的一年」。用更直白的话来讲,今年终于有扭转亏损的希望了。近期便着手准备着把财报做得更漂亮。前不久星辉娱乐发布公告称,打算将全资子公司汕头星辉娱乐衍生品有限公司(简称为星辉衍生品)100%股权出售给广东星辉控股有限公司(星辉娱乐控股股东陈雁升的控股公司),转让价格合计1.66亿元。站长网2023-11-24 09:24:080002爆火的AI面试,逼疯打工人
曾经出现在银行、外企、快消等领域的AI面试官,正在渗透到更多的行业。一位应聘酒店前台客服岗位的应届毕业生告诉Tech星球,虽然已经接到通知去线下面试,但她仍需去完成企业发来的AI面试。在线下面试现场,面试官也会特地问她AI面试的使用体验,“这家酒店刚推出AI面试,以测试为主,很想知道我们的反馈”。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-04-22 08:58:070004AI成CES顶流!大模型定义硬件时代来了
作为全球最大的科技盛会,CES(国际消费类电子产品展览会)无疑是观察科技行业变化最好的窗口。今年也不例外,美国当地时间1月9日~12日,CES在拉斯维加斯迎来了全球超过150个国家和地区的4000余家参展商,参会者超过13万人,其中就有超过1114家中国企业在现场展示新技术和新产品。0000