登陆注册

来自小羊驼团队

  • 预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队

    小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。比如这是同一个模型(LLaMa-2-Chat7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:左边为原算法,耗时18.12s,每秒约35个token;
    站长网2023-11-27 09:11:18
    0001