12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法
只需12秒,只凭手机自己的算力,就能拿Stable Diffusion生成一张图像。
而且是完成了20次迭代的那种。
要知道,现在的扩散模型基本都超过了10亿参数,想要快速生成一张图片,要么基于云计算,要么就是要本地硬件够强大了。
而随着大模型应用逐渐普及开来,在个人电脑、手机上跑大模型很可能是未来的新趋势。
由此,谷歌的研究员们带来了这篇新成果,名字就叫Speed is all you need:通过GPU优化加速大规模扩散模型在设备上的推理速度。
三步走优化加速
该方法是针对Stable Diffusion来做的优化,但同时也能适应其他扩散模型。面向的任务是从文本生成图像。
具体优化可以分成三个部分:
设计专门的内核
提升Attention模型效率
Winograd卷积加速
首先来看专门设计的内核,它包括了组归一化和GELU激活函数。
组归一化是在整个UNet体系结构中实现,这种归一化的工作原理是将特征映射的通道划分为更小的组,并对每个组独立归一,使组归一化较少依赖于批大小,并且能适应更大范围的批处理大小和网络架构。
研究人员以GPU着色器(shader)的形式设计了一个独特的核,能在没有任何中间张量的情况下,在单个GPU命令中执行所有内核。
GELU激活函数中,包含大量的数值计算,如惩罚、高斯误差函数等。
通过一个专用着色器来整合这些数值计算以及伴随的分割和乘法操作,使得这些计算能放在一个简单的draw call里。
Draw call是CPU调用图像编程接口,命令GPU进行渲染的操作。
接下来,到了提升Attention模型效率方面,论文介绍了两种优化方法。
其一是部分融合softmax函数。
为了避免在大矩阵A上执行整个softmax计算,该研究设计了一个GPU着色器来计算L和S向量以减少计算,最终得到一个大小为N×2的张量。然后将softmax计算和矩阵V的矩阵乘法融合。
这种方法大幅减少了中间程序的内存占用张量和总体延迟。
需要强调的是从A到L、S的计算映射的并行是有限的,因为结果张量中的元素比输入张量A中的元素数量要少得多。
为了增加并行、进一步降低延迟,该研究将A中的元素组成block,将归约操作(reduction operations)切分为多个部分进行。
然后在每个block上执行计算,然后将其简化为最终结果。
利用精心设计的线程和内存缓存管理,可以在多个部分实现使用单个GPU命令降低延迟。
另一种优化方法是FlashAttention。
这是去年火起来的IO感知精确注意力算法,具体有两种加速技术:按块递增计算即平铺、并在后向传递中重新计算注意力,将所有注意力操作融合到CUDA内核中。
相较于标准Attention,这种方法能减少HBM(高带宽内存)访问,提高整体效率。
不过FlashAttention内核的缓存器密集度非常高(register-intensive),所以该团队是有选择性地使用这一优化方法。
他们在注意力矩阵d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情况下使用部分融合softmax函数。
第三部分是Winograd卷积加速。
它的原理简单来说就是使用更多的加法计算来减少乘法计算,从而降低计算量。
但弊端也很明显,将会带来更多的显存消耗和数值错误,尤其是在tile比较大的情况时。
Stable Diffusion的主干非常依赖3×3卷积层,尤其是在图像解码器方面,这里90%的层都是由3×3卷积层构成的。
研究人员分析后发现,在使用4×4大小的tile时,是模型计算效率和显存利用率的最佳平衡点。
实验结果
为了评估提升效果,研究人员先在手机上进行了基准测试。
结果表明,两部手机在使用了加速算法后,生成图片的速度都明显提升。
其中三星S23Ultra的延迟降低了52.2%,iPhone14Pro Max上的延迟降低了32.9%。
在三星S23Ultra上端到端从文本生成一张512×512像素的图片,迭代20次,耗时在12秒以内。
论文地址:
https://arxiv.org/abs/2304.11267
Mamba架构遭同行评审质疑,LeCun自曝类似经历
要点:Mamba架构论文,去年底发布,挑战Transformer,但在ICLR2024同行评审中得到低分,可能被拒收。LeCun自曝类似经历,指出自己曾有类似经历,即使成就显著的论文也可能被顶会拒收。审稿人给出低分的理由,主要集中在对Mamba模型设计和实验的质疑,作者进行rebuttal但未得到重视。站长网2024-01-26 16:46:270002Nature | 全世界1/3博士后每天使用ChatGPT,不用AI工具影响找工作
在《Nature》对全球的博士后进行的调查表明,有三分之一的的受访者正在使用AI聊天机器人来帮助自己修改文字、生成或编辑代码、整理相关领域的文献等工作。最近《Nature》刊发了一篇文章,从来自世界各地的博士后科研工作者的角度,描述了ChatGPT如何帮助博士后们适应在异国的生活,跨越语言障碍,专注于科研工作,并在科研工作中如何为研究人员节省大量的时间。站长网2023-10-30 14:02:490001RTX 4090全平台缺货 价格失控:最贵已达5万元!
随着美国针对中国半导体封锁进一步加码,NVIDIARTX4090旗舰显卡成为关注焦点,各个平台都陷入了缺货甚至断货的状态,价格也是一路飙升。事实上,快科技从权威消息渠道了解到,RTX4090显卡并没有直接在中国市场上被禁售,只是不能输入RTX4090芯片作商用和生产,也就是失去了本土代工的资格。站长网2023-10-19 21:42:580000三个月涨粉650万,“姥姥版”李子柒火了,一顿饭让网友飙泪
李子柒复出的消息,就像一颗子弹击穿了整个互联网。今年9月,李子柒在农民丰收节宣传片中表示“继续坚持用自己的方式带来更多优质内容”,随后又出现在抖音10月的“美好奇妙夜”宣传视频中。站长网2023-12-10 10:31:320000微软马上放弃Win10!Win 11份额不升反降:采用率降至25%
快科技5月3日消息,根据最新发布的统计机构Statcounter报告,Windows10市场份额重返70%。在Statcounter的全球排行榜上,Windows11的市场份额已进入第二个月的下滑期。该操作系统在Windows用户中的采用率降至25%左右,而Windows10则回升至70%。站长网2024-05-04 08:29:140000