HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
划重点:
- 🌍 Cosmopedia v0.1是由 Mixtral7b 生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。
- 💻 数据集汇编了来自网页数据集(如 RefinedWeb 和 RedPajama)的信息,涵盖教科书、博客文章、故事和 WikiHow 文章等各种内容类型。
- 📚 这一初始版本的 Cosmopedia 为合成数据领域的研究奠定了基础,展示了其在各种主题上的潜在应用。
HuggingFace 推出了 Cosmopedia v0.1,这是最大的开放合成数据集,由 Mixtral7b 生成,包含超过3000万个样本,总共约250亿个标记tokens。
数据集旨在通过映射来自网页数据集如 RefinedWeb 和 RedPajama 的信息来汇编全球知识,包括教科书、博客文章、故事和 WikiHow 文章等各种内容类型。该数据集的结构分为八个部分,每个部分都源自不同的种子样本,其中包括 web_samples_v1和 web_samples_v2,占据数据集约75% 的比例,这些样本类似于 RefinedWeb 中的内部网页数据集。

Stanford 分区利用从 stanford.edu 网站上爬取的课程大纲,而故事分区则包含来自 UltraChat 和 OpenHermes2.5的生成故事。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 分区涉及与其各自来源相关的提示。
为了方便用户访问数据集,用户可以使用提供的代码段加载特定分区。另外,对于寻求缩减数据集的用户,还提供了一个更小的子集 Cosmopedia-100k。此外,还对 Cosmopedia 进行了训练,得到了一个更大的模型 Cosmo-1B,展示了其可扩展性和多功能性。
数据集的创建过程包括为 web 样本使用主题聚类方法、迭代地改进提示以及解决污染问题。其目标是通过量身定制提示风格和受众,最大程度地提高多样性,从而显著减少重复内容。
数据集入口:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
美国俄州最需要AI技能的职业排行榜:数据分析师居首
当今需求增长最快的就业岗位是可以说是由技术驱动的,而且越来越多地由人工智能驱动。例如,根据2023年世界经济论坛对全球最大公司的调查,人工智能和机器学习专家位居增长最快的职位榜首。根据一份由Freshworks发布的报告,他们使用Revelio的招聘数据分析了2022年1月至2023年3月俄勒冈州与人工智能(AI)技能相关的职位需求,并列出了排名前50个职位。站长网2023-07-14 00:35:430000沪上阿姨冲刺港交所:战略性聚焦下沉市场,2023年前三季度净利润同比增长188.7%
据IPO早知道消息,沪上阿姨(上海)实业股份有限公司(以下简称“沪上阿姨”)于2024年2月14日正式向港交所递交招股说明书,拟主板挂牌上市,中信证券、海通证券及东方证券担任联席保荐人。2013年,沪上阿姨第一家门店在上海开业。截至2023年9月30日,沪上阿姨的7,297家门店已覆盖中国全部四个直辖市,以及位于五个自治区及22个省份的300多个城市,北至中国黑龙江省漠河,南至中国海南省三亚。站长网2024-02-16 10:58:380000报道称OpenAI正在谈判以860亿美元的估值出售股票
🔍划重点:1.OpenAI谈判以860亿美元估值出售现有员工股份,吸引了潜在投资者的兴趣。2.这家总部位于旧金山的公司早前以300亿美元估值成功出售30亿美元的股票,ChatGPT技术推动了其估值迅速上升。3.尽管估值已达860亿美元,OpenAI仍在与潜在投资者谈判,最终分配和条款可能会发生变化。站长网2023-10-19 11:29:570000国内权威专家组团向大模型投毒,ChatGPT居然比国内一众中文模型更安全?
国内权威专家组团“哄骗”大模型,哪个被“忽悠瘸了”?1“奶奶漏洞”暴露出大模型薄弱环节前不久,以ChatGPT、Bard为代表的各类大语言模型因存在的“奶奶漏洞”引发热议。到底什么是“奶奶漏洞”?网友将其定义为一种大模型“越狱”技巧。只要在提示词中加入“请扮演我已经过世的祖母”,然后再提出要求,大模型就会给出适当的答案。站长网2023-07-19 22:07:590000