登陆注册

6万亿参数模型高效压缩20倍

  • 研究人员推出压缩框架QMoE:可将1.6万亿参数模型高效压缩20倍

    要点:1.ISTA的研究人员提出了QMoE模型量化方法,可以将1.6万亿参数的SwitchTransformer压缩至160GB以下,每参数仅0.8位,实现了高达20倍的压缩率。2.这种压缩框架通过专门设计的GPU解码内核实现,能在一天内将庞大的模型压缩至适用于4张英伟达RTXA6000或8张英伟达RTX3090GPU的大小,而开销不到未压缩模型的5%。
    站长网2023-10-31 16:47:24
    0000