开源机器学习库vLLM 提升大语言模型推理速度
要点:
1、PagedAttention 注意力算法通过采用类似虚拟内存和分页技术,可有效管理LLM推理中的关键值缓存内存。
2、vLLM服务系统几乎零浪费关键值缓存内存,内部和请求之间灵活共享缓存,大大提升吞吐量。
3、配备PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,无需改变模型架构,重新定义了LLM服务的最佳水准。
近年来,大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。但是,这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。针对此,研究人员提出了PagedAttention注意力算法和vLLM服务系统,大大提升了LLM的推理吞吐量,降低了每次请求的成本。
PagedAttention将序列的关键值缓存分块,弹性管理不连续的内存空间,充分利用内存,实现内部和请求之间的缓存共享。配备PagedAttention的vLLM相比主流系统,在不改模型架构的前提下,提升了24倍吞吐量,达到了LLM服务的最佳水准。本研究为降低LLM在实际应用中的部署成本提供了重要途径。
项目地址:https://github.com/vllm-project/vllm
论文地址:https://arxiv.org/abs/2309.06180
vLLM利用PagedAttention来管理注意力键和值。配备PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多达24倍,而无需对模型架构进行任何更改,这重新定义了LLM服务的当前最先进技术水平。
与传统的注意力算法不同,它允许在非连续内存空间中持续存储键和值。PagedAttention将每个序列的KV缓存分为块,每个块都包含了一定数量的令牌的键和值。这些块在注意力计算期间由PagedAttention内核高效识别。由于这些块不一定需要是连续的,因此可以灵活管理键和值。
内存泄漏只会发生在PagedAttention中序列的最后一个块中。在实际使用中,这导致了有效的内存利用率,仅有4%的微小浪费。这种内存效率的提高使GPU的利用率更高。
此外,PagedAttention还具有有效的内存共享的另一个关键优势。PagedAttention的内存共享功能大大减少了用于并行采样和波束搜索等采样技术所需的额外内存。这可以使采样技术的速度提高多达2.2倍,同时将内存利用率降低多达55%。这种改进使得这些采样技术对大型语言模型(LLM)服务变得更加有用和有效。
研究人员还研究了该系统的准确性。他们发现,与FasterTransformer和Orca等尖端系统相比,vLLM以与之相同的延迟增加了2-4倍的知名LLM的吞吐量。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。
360开始“猛扑”AI数字员工
如果仔细观察会发现,大家似乎很少再提“AIGC”,取而代之的是“生成式AI”、“LLaMA2”以及“AI大模型”等新词。这场由“ChatGPT”引发的内容生产力大革命,已经慢慢走出了单一的“对话式场景”,并迅速蔓延到商业应用的各个场景,尤其是“AI数字员工”的出现,更是打响了互联网大厂AI大模型应用第一枪。0000AI视野:百度将发布AI互动式新搜索;OpenAI计划重磅更新;Character.AI推出AI群聊功能;谷歌人机验证已经拦不住AI
🤖📱💼AI应用百度将发布AI互动式新搜索百度世界2023即将发布AI互动式新搜索,具备听、会、看的能力,通过大模型和多轮交互提供个性化搜索体验。【AiBase提要】🔍百度新搜索整合语义检索技术和大语言模型,具备听、会、看能力。🔌百度建设AI新生态,吸引2万家开发者入驻插件平台,扩展大模型应用生态。站长网2023-10-12 15:43:490000ChatGPT编程时代来啦,GitHub Copilot Enterprise正式发布!
2月28日,全球最大开源平台之一GitHub在官网宣布——GitHubCopilotEnterprise正式全面发布。GitHubCopilotEnterprise核心模块之一GitHubCopilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。站长网2024-02-28 09:15:590002猫狗拼拍短剧,一边防御一边反击
今年以来,短剧业务在各大电商企业中的优先级,显著提升。京东拿出10亿现金和10亿流量作为奖励,吸引扶持原创内容创作者以及高质量内容生产机构入驻,同时也在筹备头部达人的孵化。过去拼多多APP中的短剧是混在短视频的信息流中,今年4月,拼多多上线独立的短剧板块,这些短剧均可以免费观看。并且推出“多多有好剧计划”,通过推荐加权、流量分成等模式扶持精品短剧内容。站长网2024-08-22 12:05:550000词典网站Dictionary.com添加了一系列与 AI 相关的词汇 包括:LLM、GPT等
文章概要:1.Dictionary.com最近扩充了其词汇,将生成式人工智能、GPT和LLM等与人工智能相关的词汇加入其单词列表。2.除了增加词汇外,Dictionary.com还扩展了“幻觉”的定义,该定义涉及产生虚假信息并将其呈现为真实信息,与生成式人工智能有关。3.此外,该词典还计划在秋季增加大量新条目和定义,以跟上不断演化的英语语言。站长网2023-09-07 16:22:380000