通过这些代码,PyTorch团队让Llama 7B提速10倍
要点:
PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。
优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。
通过组合以上技术,包括"compile int4quant speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。
近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。
推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。
代码地址:https://github.com/pytorch-labs/gpt-fast
为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。
然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。
使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。
为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。
PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。
跟不上抖音梗,做不了“普通人”
不玩抖音的人和抖音深度用户,对世界的感知是截然不同的。标准的抖人,早上先瞧一眼娟子喝水,看法师又在研究什么新的化学方程式。中午可以到闻神那里,跳点科目三活动下筋骨。晚餐围观黑马情侣直播,看看人类为了多吃一口究竟能使多少心眼儿。而此时,闻神已经切换他的EMO账号闻会军,用怼脸街拍诉说辛酸往事。站长网2023-12-29 14:01:100000TikTok电商大盘三位数增长,为什么赚钱的不是我?
站长网2024-02-07 16:03:410002任正非华为讲话原文,这才叫见解透彻
首先感谢大家给华为公司做出的贡献。我们现在还属于困难时期,但在前进的道路上并没有停步。2022年我们的研发经费是238亿美元,几年后随着我们的利润增多,在前沿探索上还会继续加大投入。0002VS Code上跑ChatGPT,程序员神器更丝滑了
AI时代,许多开发者都已经上手了各式AI编程工具,至于评价则千差万别。但整体而言,AI编程的代码正越来越多出现在当下的各种技术栈中,其口碑也在逐渐攀升。随着GPT4的出现,AI编程正在迈入新的台阶。近期一个名为“Continue”的开源项目爆火出圈,它是一个VSCode扩展,能够让ChatGPT在你的IDE中运行,为开发者编程提供了极大便利。站长网2023-08-08 13:57:030000做书单号!抖音一年卖了4亿单图书!
各位村民好,我是村长书单号到底还能不能做?这是最近不少朋友问我的问题,作为传统图书带货领域一个新的玩法,有很多人说过时。毕竟书单号赚到钱的人,四五年就已经在做了,但我觉得机会还有一大把!今天我将从5个方面和大家一起来聊聊,之前还写过三篇文章,可以综合一起看一下。1、抖音6种月入过万的书单号2、一本书就赚几十万,详解抖音中老年人书单号的玩法逻辑,看完你也能做!3、一本书变现的6种方式0000