登陆注册

万卷

  • 上海AI实验室开源“书生·万卷”1.0多模态预训练语料

    上海AI实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料“书生・万卷”1.0。据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
    站长网2023-08-15 09:34:21
    0000