登陆注册

开源机器学习库vLLM

  • 开源机器学习库vLLM 提升大语言模型推理速度

    要点:1、PagedAttention注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。3、配备PagedAttention的vLLM相比HuggingFaceTransformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。
    站长网2023-09-18 11:42:45
    0004