登陆注册

包含3万亿个token

  • AI2发布大语言模型开源数据集Dolma 包含3万亿个token

    文章概要:1.AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。2.Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。3.Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。
    站长网2023-08-25 10:54:08
    0000