HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
划重点:
- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。
- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。
- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。
HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。
数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。
Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。
为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。
数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
竞价广告的新冲击:车企如何应对花钱的挑战
最近,理想汽车创始人李想在他的微博上写下了这样几句话:“我们不会授权任何代理商和经销商,我们会一直坚持直营的销售模式,在数字时代这个模式经营的非常健康,不必为我们操心”。而在2022年7月时,蔚来汽车联合创始人兼总裁秦力洪在一次和麦肯锡的对谈中也如此提及:站长网2023-08-10 10:03:540000TikTok宣布支持iOS设备的密钥登录
据macrumors消息,TikTok宣布将引入对苹果passkeys的支持,为这个热门的短视频平台的用户提供更简单、更安全的登录方式。苹果在iOS16的发布时将passkeys集成到iOS中,它们也在iPadOS16.1及更高版本和macOSVentura中可以使用。站长网2023-07-19 11:23:180000做小工具,4个人,400万/年收入。
各位村民好,我是村长。这几年大家都挺迷茫的。想要去创业,看起来外面有各种各样的项目,听每个人分享起来都是年入几千万、几个亿的。但是当自己看了一圈想要去做的时候,又感觉无从下手,感觉每个人项目都有人做了。这几年,除了在做传统的电商、短视频外,也在尝试做一些小项目。个人觉得小工具对于普通创业者来说,还算是一个不错的赚钱赛道,是有机会猥琐(闷声)发育,活下来赚到钱的。01信息差永远存在0000李国庆喊话宗馥莉:格局要大 以和为贵
近日,娃哈哈与农夫山泉之间的争议成为了公众关注的焦点。针对此事,李国庆于3月12日发布了一段视频,表达了他对这两个企业的看法。在视频中,李国庆首先强调了两个企业取得今天这样的成绩都不容易。他认为,无论是娃哈哈还是农夫山泉,都经历了无数的挑战和困难,才能够在市场上站稳脚跟。站长网2024-03-13 11:17:360000华晨宝马CEO回应BBA退出价格战:确保合作伙伴都能赚到足够的钱 活到未来
快科技7月21日消息,针对一线豪华品牌BBA(奔驰,宝马和奥迪)退出价格战一事,华晨宝马CEO戴鹤轩今天给出了回应。戴鹤轩表示:价格是由经销商作为独立的经营主体去确定的,宝马会与上下游的伙伴都保持密集的讨论,看看可持续的商业模式应该如何进行,以确保各方合作伙伴都能赚到足够的钱,能够活到未来。”0000