登陆注册

整个互联网转成大模型语料

  • 四个00后的疯狂开源计划:整个互联网转成大模型语料,1亿token嵌入成本只需1美元

    Arxiv上所有论文转成Token,加起来不过14.1GB而已。这是最新爆火开源计划亚历山大完成的壮举。事实上,这还只是第一步。他们最终是想要将整个互联网变成Tokens,换言之全都转化成ChatGPT等大模型理解这个世界的方式。一旦这样的数据集诞生,那岂不是为开发出GPT-4这样的大模型又新增一大利器,上知天文下知地理指日可待了?!消息一出,瞬间引发巨大关注。网友们赞叹,史诗般的。
    站长网2023-06-06 16:24:47
    0000