开源机器学习库vLLM 提升大语言模型推理速度
要点:
1、PagedAttention 注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。
2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。
3、配备PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。
近年来,大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。但是,这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。针对此,研究人员提出了PagedAttention注意力算法和vLLM服务系统,大大提升了LLM的推理吞吐量,降低了每次请求的成本。
PagedAttention将序列的关键值缓存分块,弹性管理不连续的内存空间,充分利用内存,实现内部和请求之间的缓存共享。配备PagedAttention的vLLM相比主流系统,在不改模型架构的前提下,提升了24倍吞吐量,达到了LLM服务的最佳水准。本研究为降低LLM在实际应用中的部署成本提供了重要途径。
项目地址:https://github.com/vllm-project/vllm
论文地址:https://arxiv.org/abs/2309.06180
vLLM利用PagedAttention来管理注意力键和值。配备PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多达24倍,而无需对模型架构进行任何更改,这重新定义了LLM服务的当前最先进技术水平。
与传统的注意力算法不同,它允许在非连续内存空间中持续存储键和值。PagedAttention将每个序列的KV缓存分为块,每个块都包含了一定数量的令牌的键和值。这些块在注意力计算期间由PagedAttention内核高效识别。由于这些块不一定需要是连续的,因此可以灵活管理键和值。
内存泄漏只会发生在PagedAttention中序列的最后一个块中。在实际使用中,这导致了有效的内存利用率,仅有4%的微小浪费。这种内存效率的提高使GPU的利用率更高。
此外,PagedAttention还具有有效的内存共享的另一个关键优势。PagedAttention的内存共享功能大大减少了用于并行采样和波束搜索等采样技术所需的额外内存。这可以使采样技术的速度提高多达2.2倍,同时将内存利用率降低多达55%。这种改进使得这些采样技术对大型语言模型(LLM)服务变得更加有用和有效。
研究人员还研究了该系统的准确性。他们发现,与FasterTransformer和Orca等尖端系统相比,vLLM以与之相同的延迟增加了2-4倍的知名LLM的吞吐量。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。
亚马逊云科技生成式 AI 全球副总裁:人工智能炒作周期还未达顶峰
站长之家(ChinaZ.com)8月7日消息:亚马逊云科技生成式AI全球副总裁VasiPhilomin在接受采访时表示,互联网泡沫确实存在过,但互联网对每个人的生活产生了巨大影响,现在我们已经无法想象没有互联网的生活。他相信生成式人工智能将改变每个行业中的每个企业,但需要时间。站长网2023-08-07 10:24:450000Polycam推出大更新:用户可以根据自己的想法修改3D模型
Polycam是一款创新的应用,它允许用户在手机上捕捉和编辑Splat,这是一种3D模型。现在,Polycam推出了一项重大更新,用户可以在网页和移动端进行高斯Splat编辑。体验地址:https://poly.cam/tools/gaussian-splatting站长网2024-03-15 12:04:530000科大讯飞发布数字员工产品 星火大模型1月30日将发布最新版
1月9日,科大讯飞宣布推出基于星火认知大模型的管理数字员工、营销数字员工和办公数字员工三大产品。管理数字员工产品具备企业招采、合同起草等功能,旨在提升企业运营效率。营销数字员工则将AI技术应用于销售场景,实现识别、角色分离、文本理解、意图表达等能力,助力销售团队提升业绩。办公数字员工则提供主题创作、文本创建等能力,提升办公效率。0000创新性生成框架InsActor:用指令就能将人体运动模型转化为逼真的物理动画
**划重点:**1.🚶♂️利用最新的扩散式人体运动模型,InsActor能够生成基于高级人类指令的物理动画。2.🌐通过扩散策略进行灵活条件化运动规划,InsActor捕捉高级人类指令与角色动作之间的复杂关系。3.🎮在实验证明,InsActor在包括指令驱动运动生成和航点导向等任务上取得了最先进的结果。站长网2024-01-02 10:45:230000双11是怎么被“拉近”的?
以双11为代表的零售线上化,是过去十多年中国零售商业的大趋势。但到了今年双11,线上零售略显疲态,线下本地商家搭乘即时零售的东风,成为新的驱动力。大促期间,各大电商平台纷纷打出低价牌,并搭配官方直降等玩法。轰轰烈烈的价格战之后,电商平台并没有像往年那样晒出双11成绩单,而是重点宣传其他维度的亮点,比如有多少个品牌交易额破亿、破十亿等。站长网2023-11-15 18:08:580000