登陆注册

AI发布RedPajama

  • Together AI发布RedPajama v2 用于大模型训练

    要点:1.TogetherAI发布了RedPajamav2,这是一个包含30万亿标记的开放数据集,用于训练大型语言模型。2.这个数据集的目的是提供高质量的数据,以支持开放式大型语言模型的成功发展。3.数据集包含来自CommonCrawl和其他公开可用网络数据的原始文本数据,以及超过40个质量注释和去重集群。
    站长网2023-11-06 10:31:31
    0001
  • Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型

    划重点:📌高质量数据对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM的成功至关重要。📌Together.ai的研究人员发布了RedPajama-1T,这是一个5TB的数据集,拥有1万亿高质量英语token,而RedPajama-V2则是一个30万亿token的在线数据集。
    站长网2023-11-06 10:26:29
    0000