登陆注册

这项AI研究引入

  • 这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务

    划重点:-📌Atom是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。-📌Atom采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。-📌Atom通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对LLM服务需求的不断增长。
    站长网2023-11-24 10:06:22
    0003