通过这些代码,PyTorch团队让Llama 7B提速10倍
要点:
PyTorch团队通过优化技术,在不到1000行的纯原生PyTorch代码中将Llama7B的推理速度提升了10倍,达到了244.7tok/s。
优化方法包括使用PyTorch2.0的torch.compile函数、GPU量化、Speculative Decoding(猜测解码)、张量并行等手段,以及使用不同精度的权重量化,如int8和int4。
通过组合以上技术,包括"compile int4quant speculative decoding"的组合,以及引入张量并行性,实现了在Llama-70B上达到近80tok/s的性能。
近期,PyTorch团队在其博客中分享了一篇关于如何加速大型生成式AI模型推理的文章。该团队以Llama7B为例,展示了如何通过一系列优化技术将推理速度提升10倍,达到了244.7tok/s。
推理性能的初始状态,大模型推理性能为25.5tok/s,效果不佳。然后,通过PyTorch2.0引入的torch.compile函数,以及静态KV缓存等手段,成功减少CPU开销,实现了107.0TOK/S的推理速度。
代码地址:https://github.com/pytorch-labs/gpt-fast
为了进一步提高性能,团队采用了GPU量化技术,通过减小运算精度来加速模型。特别是使用int8量化,性能提升了约50%,达到了157.4tok/s。
然而,仍然存在一个问题,即为了生成100个token,必须加载权重100次。为解决这个问题,团队引入了Speculative Decoding,通过生成一个“draft”模型预测大模型的输出,成功打破了串行依赖,进一步提升了性能。
使用int4量化和GPTQ方法进一步减小权重,以及将所有优化技术组合在一起,最终实现了244.7tok/s的推理速度。
为了进一步减少延迟,文章提到了张量并行性,通过在多个GPU上运行模型,进一步提高了性能,特别是在Llama-70B上达到了近80tok/s。
PyTorch团队通过一系列创新性的优化手段,不仅成功提升了大模型的推理速度,而且以不到1000行的纯原生PyTorch代码展示了这一技术的实现过程。
Meta 将推出第一代自研人工智能运算芯片 MTIA v1
Meta公司的AI工作负载无处不在,为诸多应用提供基础支持,如内容理解、动态信息流、生成式AI和广告排名等。得益于其与Python的无缝集成、急切模式编程和简明的API,PyTorch可以运行这些工作负载。其中,DLRMs对于提升Meta产品和服务的用户体验至关重要。硬件系统必须在模型的规模和复杂性不断增长的情况下,提供越来越多的内存和计算资源,同时保持效率。站长网2023-05-23 15:13:110000小红书在IOS端上线旁白功能
为了帮助视障用户更好地使用和融入小红书社区,该平台于今年5月初在iOS端的更新版中适配了苹果系统的“旁白”辅助功能。据介绍,视障用户在进入小红书社区、刷笔记时,旁白功能会提示每个按钮的具体功能;在搜索场景时,视障用户能够通过语音提示了解整个页面的结构,接收到双列里每一篇笔记的内容,并进入到自己感兴趣的一篇笔记中去浏览内容。站长网2023-05-22 11:35:230002Transformer一作公司Adept发布多模态大模型Fuyu-8B 80亿参数,100毫秒极速响应
要点:1.Transformer一作AshishVaswani所在的AI公司Adept发布了Fuyu-8B,一个多模态大模型,拥有80亿参数,能够理解各种图像类型,包括照片、图表、PDF和界面UI。2.Fuyu-8B采用了一种纯解码器Transformer架构,不使用图像编码器,支持任意图像分辨率,表现在多项任务中优于其他大型模型。站长网2023-10-19 15:01:420000Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐 时长达3分钟
划重点:⭐️Stability.ai发布了音频模型StableAudio2.0,支持生成多种类型音乐,时长达3分钟。⭐️StableAudio2.0采用DiT替换U-Net架构,生成效率显著提升。⭐️用户可免费试用StableAudio2.0生成音乐,支持商业化使用。站长网2024-04-18 14:54:350001大厂秋招又起:为什么“ATMD”成第一梯队
前不久,三言科技曾写过各互联网大厂陆续开启了2024届校招进程,伴随着AI大模型成为热门概念,今年一些互联网大厂也在关注这方面人才。不过,今年的校招笔者还注意到一个有趣的现象——“ATMD”正成为应届生们首选的公司。今年秋招季期间,很多自媒体以及专业人士都为应届生提供了求职建议。而他们无一例外都将“ATMD”放在第一梯队,甚至有人直言称,学生们大可“盲选”这几家公司,不会有错。站长网2023-08-16 18:22:080000