田渊栋团队最新论文解决大模型部署难题 推理系统吞吐量提高近30倍!
田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题,将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法,通过识别和保留重要的tokens,显著减少了内存占用,并在长输入序列的任务中表现良好。
这篇论文的研究对象是大型语言模型(LLM),该模型在实际部署中面临着KV缓存成本昂贵和对长序列的泛化能力差的问题。为了解决这些问题,田渊栋团队提出了一种基于重要tokens的KV缓存逐出策略,通过识别并保留对生成结果有重要贡献的tokens,显著减少了内存占用,并提高了模型在处理长输入序列时的表现。
论文地址:https://arxiv.org/pdf/2306.14048.pdf
代码地址:https://github.com/FMInference/H2O
在实验中,作者使用了OPT、LLaMA和GPT-NeoX等模型验证了他们提出的方法的准确性和有效性。实验结果显示,通过使用该方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen这三个推理系统的吞吐量分别提高了29倍、29倍和3倍,且在相同的批量大小下,延迟最多可以减少1.9倍。
通过研究发现,大部分注意力键和值嵌入在生成过程中贡献较少的价值,只有一小部分tokens贡献了大部分的价值。基于这个发现,作者提出了一种基于重要tokens的KV缓存逐出策略,动态保持最近的tokens和重要tokens的平衡。通过使用这种策略,可以显著减少KV缓存的大小,从而降低了内存占用,并提高了模型的推理效率。
综上所述,田渊栋团队的最新论文成功解决了大型语言模型在实际部署中的难题,通过优化KV缓存的实现方法,将推理系统的吞吐量提高了近30倍。这一成果在NeurIPS'23上将进行展示,对于大型语言模型的部署和应用具有重要的意义。
今天520:微信已开放520元大红包 限时一天
快科技消息,今天是2023年5月20日,因为520和我爱你”的谐音,这两年逐渐的变成了一种和2月14”、七夕”齐名的情人节,非常受年轻人追捧。微信自然也在这种为数不多的秀恩爱节日,再度将保留节目限定大红包”回归上线。0点一过,微信红包的金额上限已经特别从200元调整为520元,方便情侣之间互相表达心意(晒朋友圈...)。站长网2023-05-20 10:50:290000滴滴:五一假期打车需求将上涨35% 将发放超3亿元司机奖励
今日,滴滴发文称,五一假期期间,滴滴预测打车需求将上涨约35%,其中远距离出行需求预计上涨55%。三线至五线城市的打车需求将上涨最为显著,预计涨幅约50%。此外,用户预约顺风车携宠出行订单量同比去年上涨158%。预计节前打车需求高峰将从4月30日16时开始,持续至20时许。为致敬司机师傅们的辛勤付出,滴滴将发放超3亿元司机奖励,并开展一系列节日司机关怀行动,为司机提供充电、加油等优惠。站长网2024-04-26 00:47:320000NVIDIA狂飙AI ,市值暴涨,PC性能提升60倍!40系SUPER显卡发布,4899元碾压上代旗舰
【新智元导读】今年的CES大会上,NVIDIA依然给全世界震撼不停。正式下场AIPC,性能直接飙涨60倍;40系SUPER显卡,已全面碾压上代旗舰;AINPC甚至能跟屏幕外的玩家直接开启实时对话,这也太科幻了……一年一度的CES2024上,NVIDIA又给了全世界亿点点震撼。站长网2024-01-10 09:29:520000奥特曼与OpenAI董事会展开回归谈判
据知情人士透露,OpenAI的董事会成员和临时首席执行官EmmettShear正在与被罢免的首席执行官SamAltman展开谈判,旨在让他重返这家人工智能初创企业主持大局。一位知情人士称,如果Altman回归,他仍将担任公司首席执行官。站长网2023-11-22 08:22:160001小鹏G6订单破万 CEO何小鹏亲下工厂拧螺丝:全力做好交付和质量
小鹏汽车CEO何小鹏为了回应广大车主的期待,亲自到工厂拧螺丝,展现了非常接地气的宣发态度,同时也表现出他对公司的产品质量和交货时间的关注。这种务实的做法赢得了许多网友的好感,也增强了消费者对小鹏汽车的信任。站长网2023-07-12 14:30:160000