Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
划重点:
📌 高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。
📌 Together.ai的研究人员发布了RedPajama-1T,这是一个5TB的数据集,拥有1万亿高质量英语token,而RedPajama-V2则是一个30万亿token的在线数据集。
📌 这个数据集的构建强调了对CommonCrawl的覆盖,包括原始数据、高质量注释和去重集群,为LLM的培训提供了有力的基础。
Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。
对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。因此,获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。
注:图片来自项目官网
此前,Together.ai的研究人员已经发布了RedPajama-1T,这是一个5TB的数据集,其中包含了1万亿高质量的英语token,但他们并未止步于此。RedPajama-V2是它的继续,构建了一个30万亿token的在线数据集。
研究团队认为,RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库,可用作提取高质量数据集的基础,并为深入研究LLM培训数据提供基础。值得注意的是,RedPajama-V2强调了对CommonCrawl的覆盖,包括84个已处理的抓取数据,而且还包括了40多个高质量注释,这些注释是通过多个ML分类器对数据质量、minhash结果等进行的,可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集,通过切片和筛选公开可用的数据。
RedPajama-V2的主要焦点是CommonCrawl,它是从头开始构建的,使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据(纯文本)、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性,并让模型构建者在流水线中进行自己的筛选和重新加权,每个CommonCrawl快照都首先经过CCNet流水线的处理。同时,研究人员还计算了40多个最流行的高质量注释,以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究,并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外,他们还希望随着社区的帮助,逐渐添加更多的高质量信号。
RedPajama-V2包括了1130亿份文档,涵盖了英语、德语、法语、西班牙语和意大利语,是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后,头部和中部分区的文档和token数量减少了60%,但文档数量减少了71%,这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后,数据集减少了大约40%。文本文档占据了数据集的大部分内容,包括高质量注释和去重集群,其布局与CCNet规定的非常相似。
研究团队希望很快扩展他们目前的高质量注释集,包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释,以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。
https://github.com/togethercomputer/RedPajama-Data
Edge疑屏蔽百度搜索结果 双方暂未回应
1月29日,“百度Edge”事件引发微博热议,许多网友反映,Edge浏览器显示百度搜索结果存在风险,搜索结果出现“此网站不安全已被人投诉”的提示语,要查看详情,然后选择“仍要访问此不安全网站(不建议)”才能进入相关页面。经过测试发现,目前为止,相关问题还没有解决,在Edge浏览器上点击百度相关链接,所有页面都出现“红色”警告。百度和微软中国方面都表示不清楚情况,正在向业务部门询问了解情况。站长网2024-01-29 17:40:230000图像转音乐工具Image to Music V2 一键搞定BGM
如果你做内容的时候不知道应该搭配什么音乐,那么这个生成配乐的工具一定要看看。它可以通过从图像中提取提示词,然后生成相应的配乐。该应用的核心功能之一是能够将图像转换为音乐。通过先进的机器学习算法,用户可以上传图像并立即生成相应的音乐作品。这为艺术家、创作者和音乐爱好者提供了一个全新的创作工具,为他们的项目增添独特的声音。站长网2024-02-06 11:34:350001雷军:看完车展很绝望 各大厂商缺乏独特性和创新
小米CEO雷军在近期举办的2024中关村论坛年会上分享了自己参观2024北京车展后的深刻感受。他直言不讳地表达了对当前汽车市场产品同质化现象的忧虑,认为这种趋势正在侵蚀行业的创新力。站长网2024-05-06 17:52:500000打工人换新机,12 256GB就够用,入手时看价格,有两款合适
动辄大几千、上万元的智能手机,对于打工人而言是“可望而不可求”。所以,如果实打实地站在打工人的角度去选择手机,一定要注重到手价格以及手机的各项配置。就目前的手机市场来说,再结合打工人的实际用机需求,其实12GB256GB版的安卓手机就够用了,不过入手之前一定要看价格多少。按照这些前提,有两款比较合适。第一款:RedmiK60站长网2023-05-23 15:50:370000阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效
图源备注:图片由AI生成,图片授权服务商Midjourney文生视频领域又卷起来了!文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720分辨率没有压力,而且生成效果非常连贯。0000