登陆注册

压缩长提示并加快模型推理速度

  • 20倍的压缩比例!​微软发布LLMLingua:压缩长提示并加快模型推理速度

    划重点:🔍微软团队推出LLMLingua,一种独特的粗细压缩技术,用于压缩长提示并加快模型推理速度。🔍LLMLingua采用动态预算控制、逐标记迭代压缩算法和指令调整方法,确保在大比例压缩下保持提示的语义完整性。🔍实验结果表明,LLMLingua在不同情境中都达到了最先进的性能,并能实现高达20倍的压缩比例。
    站长网2023-12-14 10:35:38
    0004