通过这些代码,PyTorch团队让Llama 7B提速10倍
要点:
PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。
优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。
通过组合以上技术,包括"compile int4quant speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。
近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。
推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。
代码地址:https://github.com/pytorch-labs/gpt-fast
为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。
然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。
使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。
为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。
PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。
用自己照片被告侵权还遭索赔!摄影师戴建峰起诉视觉中国
10月9日消息,今日,摄影师戴建峰Jeff的星空之旅”发文,称对于视觉中国未经本人许可,非法销售其照片,并向其索赔一事,已向天津市和平区人民法院提起诉讼。在这条微博评论区,许多网友留言刷屏表示支持”,也有网友称支持维权,视觉中国不是第一次干这种事了”。据了解,今年8月,摄影师用自己照片被视觉中国告侵权索赔8万”一事引起网络热议。站长网2023-10-09 22:49:010000螺蛳粉摊主成名记:一声“哦吼”响彻抖音,点赞千万,涨粉百万
一声“哦吼!”,响彻抖音。一条千万点赞的爆款视频就此横空出世。路人视角的镜头下,螺蛳粉摊主对着年轻女员工一顿暴躁输出,吐槽为什么要将摊位的灯换成声控的,导致下厨时错误不断,一边抱怨一边还不忘高喊“哦吼”点亮声控灯。带点广西口音的“哦吼”,洗脑了不少观众,有评论表示“他哦吼一次,我就笑一次”。截至目前,这条视频在抖音获赞1341万次,被转发了1790万次。站长网2023-09-18 18:47:150000谷歌 DeepMind 高管表示人工智能将有助于应对气候变化
谷歌DeepMind高管ColinMurdoch表示,人工智能有潜力加速改变世界的创新,例如「无限」的清洁能源和更好的气象模型,帮助人们应对气候变化的影响。他在BNNBloomberg电视台上说:「我们正在使用人工智能预测天气,以提供更准确的天气预报,帮助世界各地的社区和公司适应日益极端的天气。」站长网2023-06-29 23:46:190001福布斯发布2023年AI50榜单:OpenAI、谷歌云、AWS等上榜
今日,福布斯发布2023年AI50榜单,它是由美国福布斯杂志、SequoiaCapital和MeritechCapital联合评选的榜单,旨在表彰最有前途的使用人工智能进行商业应用的未上市公司。站长网2023-04-14 15:17:450002LinkedIn 的报告显示最热衷于讨论 AI 的行业并非科技业
人们对人工智能的看法可能仍是褒贬不一,但关于这项技术的讨论肯定不会少,尤其是在雇主和求职者之间。根据LinkedIn最新发布的一份报告,在过去一年里,关于人工智能的对话增加了70%,这是该求职平台发布的第二份关于「工作场所中的人工智能」的报告。站长网2023-11-28 16:52:020000