通过这些代码,PyTorch团队让Llama 7B提速10倍
要点:
PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。
优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。
通过组合以上技术,包括"compile int4quant speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。
近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。
推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。

代码地址:https://github.com/pytorch-labs/gpt-fast
为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。
然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。
使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。
为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。
PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。
古希腊这个几何问题,看着平淡无奇,却让一代代数学家绞尽脑汁
人们常用‘大海捞针’,‘煎水作冰’,‘化圆为方’等成语表示不可能完成的事情。这其中,‘化圆为方’蕴含着丰富的数学知识与数学思想,你知道是什么吗?此外,为什么‘化圆为方’就意味着不可能呢?数学家们又是如何证明其不可能性的呢?下面让我们一起来探究这个有趣的问题。站长网2023-05-24 02:16:590000新孵6个千万GMV直播间,疯狂小杨哥开启“疯狂矩阵”
最近,疯狂小杨哥在抖音开启了疯狂串场模式。疯狂小杨哥和哥哥疯狂大杨哥兵分两路,一会儿出现在嘴哥、乔妹eve等签约主播的直播间,一会儿闪现到“三只羊网络”“三只羊网络水果生鲜”等矩阵直播间。图源:抖音作为目前抖音粉丝量最多的个人网红,坐拥1.12亿粉丝的疯狂小杨哥正在疯狂引流,布局直播矩阵。孵化6个千万GMV直播间,疯狂小杨哥开启狂飙之路站长网2023-05-18 15:03:510000消息称AI初创公司Anthropic计划融资7.5亿美元
**划重点:**1.💰融资规模:Anthropic公司由前OpenAI员工于2021年创立,目前正与硅谷风险投资公司MenloVentures进行高级谈判,计划融资7.5亿美元,估值或达184亿美元,有望成为人工智能领域的重要参与者。0000独立开发变现周刊(第105期):开发一个年收入120万美元的拍照工具
分享独立开发、产品变现相关内容,每周五发布(合集:ezindie.com)目录1、Plane:开源的Jira替代产品2、ShopifyApp:靠2个App达到月收入4.9万美金3、jsoncrack:JSON可视化工具4、建立一个年收入120万美元的拍照工具1、Plane:开源的Jira替代产品站长网2023-09-22 09:18:030000GPT Store正式上线 gpts开始狂飙
今天,GPTStore已经正式上线了,用户可以通过自然语言来构建自定义的GPT。OpenAI最新推出的定制GPT(CustomGPTs)代表了人工智能个性化的重大飞跃。这些可定制化的实体将彻底改变我们与人工智能的互动方式,为从琐碎到复杂的各种任务提供量身定制的小助手。站长网2023-11-08 09:37:340001