田渊栋团队最新论文解决大模型部署难题 推理系统吞吐量提高近30倍!
田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题,将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法,通过识别和保留重要的tokens,显著减少了内存占用,并在长输入序列的任务中表现良好。
这篇论文的研究对象是大型语言模型(LLM),该模型在实际部署中面临着KV缓存成本昂贵和对长序列的泛化能力差的问题。为了解决这些问题,田渊栋团队提出了一种基于重要tokens的KV缓存逐出策略,通过识别并保留对生成结果有重要贡献的tokens,显著减少了内存占用,并提高了模型在处理长输入序列时的表现。
论文地址:https://arxiv.org/pdf/2306.14048.pdf
代码地址:https://github.com/FMInference/H2O
在实验中,作者使用了OPT、LLaMA和GPT-NeoX等模型验证了他们提出的方法的准确性和有效性。实验结果显示,通过使用该方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen这三个推理系统的吞吐量分别提高了29倍、29倍和3倍,且在相同的批量大小下,延迟最多可以减少1.9倍。
通过研究发现,大部分注意力键和值嵌入在生成过程中贡献较少的价值,只有一小部分tokens贡献了大部分的价值。基于这个发现,作者提出了一种基于重要tokens的KV缓存逐出策略,动态保持最近的tokens和重要tokens的平衡。通过使用这种策略,可以显著减少KV缓存的大小,从而降低了内存占用,并提高了模型的推理效率。
综上所述,田渊栋团队的最新论文成功解决了大型语言模型在实际部署中的难题,通过优化KV缓存的实现方法,将推理系统的吞吐量提高了近30倍。这一成果在NeurIPS'23上将进行展示,对于大型语言模型的部署和应用具有重要的意义。
同花顺推出首个金融领域应用大模型问财HithinkGPT
同花顺日前推出自研的问财HithinkGPT大模型,并用于升级同花顺问财这一投顾对话机器人,成为国内第一家在金融领域应用大模型技术的企业。此次升级的问财投顾机器人,采用自主研发的HithinkGPT大模型,可以提供股票、基金、债券等15个金融业务领域的投资建议。新版本问财涵盖投资决策的多个环节,包括查询、分析、对比、预测等在内的50余项功能,能为投资者提供全面和精准的投资支持。00004G显存低配畅玩AIGC!ControlNet作者新作登顶GitHub热榜,小白点3次就出图
玩AI画画,现在终于不用担心被老黄刀法“背刺”了!只需要一块4年前的GTX1650(显存4GB),AI出图效果堪比当前最好的开源模型SDXL。这是最近在GitHub上连续数日霸榜TOP1的新项目Fooocus,三天标星破4k,ControlNet作者出品。站长网2023-08-27 13:43:140001马斯克称推特正在测试一个名为文章的新功能
theverge报道称,埃隆·马斯克透露,推特正在开发一项功能,让你可以在平台上发布文章。马斯克在回复一位用户关于这个正在开发中的工具的推文时说,这个功能将“允许用户发布非常长、复杂的文章,包含混合媒体”。他说,“你想的话,可以发布一本书。”站长网2023-07-19 19:18:290000iPadOS 18 中的智能脚本将在使用Apple Pencil 时清理用户笔迹
苹果周一在WWDC2024上宣布,iPadOS18将包含一项新的“智能脚本”功能,该功能将在使用ApplePencil在Notes中书写时清理你的笔迹。苹果表示,借助智能脚本,您可以更流畅、更清晰地书写笔记。该功能使用设备上的机器学习技术,从笔记中重现您的笔迹,从而改善书写效果。您将看到自己的笔迹,而且更加流畅、清晰。来源:苹果站长网2024-06-11 23:13:220000国内免费AI编程助手通义灵码:AI人工智能写代码 开发效率提升10倍
对于很多开发者来说,已经开始借助AI智能编码助手提升自己的开发效率。本文为大家分享一款国内好用的AI编程工具通义灵码。据官方介绍,通义灵码是国内用户规模第一的智能编码助手,基于SOTA水准的通义千问代码模型Code-Qwen1.5研发,插件下载量已超350万。体验地址:https://top.aibase.com/tool/tongyilingma站长网2024-05-24 18:28:430000