田渊栋团队最新论文解决大模型部署难题 推理系统吞吐量提高近30倍!
田渊栋团队最新发表的论文解决了大型语言模型在实际部署中遇到的内存和输入长度限制的问题,将推理系统的吞吐量提高了近30倍。论文提出了一种实现KV缓存的新方法,通过识别和保留重要的tokens,显著减少了内存占用,并在长输入序列的任务中表现良好。
这篇论文的研究对象是大型语言模型(LLM),该模型在实际部署中面临着KV缓存成本昂贵和对长序列的泛化能力差的问题。为了解决这些问题,田渊栋团队提出了一种基于重要tokens的KV缓存逐出策略,通过识别并保留对生成结果有重要贡献的tokens,显著减少了内存占用,并提高了模型在处理长输入序列时的表现。
论文地址:https://arxiv.org/pdf/2306.14048.pdf
代码地址:https://github.com/FMInference/H2O
在实验中,作者使用了OPT、LLaMA和GPT-NeoX等模型验证了他们提出的方法的准确性和有效性。实验结果显示,通过使用该方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen这三个推理系统的吞吐量分别提高了29倍、29倍和3倍,且在相同的批量大小下,延迟最多可以减少1.9倍。
通过研究发现,大部分注意力键和值嵌入在生成过程中贡献较少的价值,只有一小部分tokens贡献了大部分的价值。基于这个发现,作者提出了一种基于重要tokens的KV缓存逐出策略,动态保持最近的tokens和重要tokens的平衡。通过使用这种策略,可以显著减少KV缓存的大小,从而降低了内存占用,并提高了模型的推理效率。
综上所述,田渊栋团队的最新论文成功解决了大型语言模型在实际部署中的难题,通过优化KV缓存的实现方法,将推理系统的吞吐量提高了近30倍。这一成果在NeurIPS'23上将进行展示,对于大型语言模型的部署和应用具有重要的意义。
高通和微软合作构建 Snapdragon 计算平台上的生成式人工智能
在MicrosoftBuild2023活动中,高通技术公司展示了其在设备上人工智能方面的最新创新,包括在Snapdragon计算平台上运行生成式人工智能,并为在搭载Snapdragon的Windows11PC上构建应用程序的开发者提供新的路径。站长网2023-05-24 15:55:580000AI视野:百川发布Baichuan2-192K大模型;DALL·E3新增种子功能;ChatGPT Plus会员可上传和分析文件;谷歌Bard支持实时生成回复
🤖📈💻💡大模型动态百川智能发布Baichuan2-192K大模型,可处理35万汉字百川智能发布了Baichuan2-192K大模型,拥有全球最长的上下文窗口,处理约35万个汉字,超越了Claude2。百川大模型官网:https://top.aibase.com/tool/baichuandamoxing【AiBase提要】站长网2023-10-30 16:05:510000IBM 推出云原生 SIEM:让安全分析师和人工智能更有效地并肩工作
除了宣布正式启动价值5亿美元的风险投资基金外,IBM今日还宣布,其旗舰产品IBMQRadarSIEM将经历重大演变:基于全新的云原生架构进行重设计,专门为混合云的规模、速度和灵活性而构建。IBM还揭露了其在威胁检测和响应产品组合中引入由企业级数据和AI平台watsonx支持的生成式AI功能的计划。站长网2023-11-08 17:21:350001特斯拉家庭充电服务包更新 赛博充4900元起、三代家充6800元起
特斯拉今日宣布更新其家庭充电服务包,均改为国标10米安装服务,赛博充4900元起(降价600元)、三代家充6800元起(降价1200元)。Cybervault充电桩为中国市场量身打造,重量为13千克,造型采用Cybertruck设计语言,产品以保护外箱和充电设备一体化,满足客户对安全,经济,美观,耐用的需求。站长网2023-10-18 21:34:350000利用百万保障名义实施诈骗!微信封禁大批账号:解析诈骗全流程
快科技9月12日消息,近段时间,有不少利用微信支付百万保障”诈骗的情况出现。尤其针对中老年人群体,利用他们对这一服务的不熟悉,以百万保障到期需缴费续保”或关闭自动扣费”等借口设下圈套,实施诈骗。微信团队将继续加强对此类诈骗行为的打击,对此类违法行为,微信团队表示将持续加强打击,并公布出了近期部分违规账号。微信官方提醒:微信支付百万保障永久免费,只要使用微信支付即可享受。站长网2024-09-14 03:22:260000