登陆注册

250亿个tokens

  • HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens

    划重点:-🌍Cosmopediav0.1是由Mixtral7b生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。-💻数据集汇编了来自网页数据集(如RefinedWeb和RedPajama)的信息,涵盖教科书、博客文章、故事和WikiHow文章等各种内容类型。
    站长网2024-02-21 17:02:59
    0000