HuggingFace diffusers轻量快速推理引擎stable-fast上线
不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,这一引擎表现出色,赢得了众多开发者的青睐。
目前,stable-fast处于测试阶段,可能存在一些问题,但它承诺为深度学习爱好者带来颠覆性的变革。

项目地址:https://github.com/chengzeyi/stable-fast
stable-fast的设计目标是优化HuggingFace Diffusers在NVIDIA GPU上的推理。它利用一组强大的技术来确保高效的性能。其中一个显著特点是CUDNN卷积融合,它能够实现卷积、偏差、加法和激活计算模式的无缝融合。这确保了您的模型运行尽可能高效。
另一个显著特点是实现了低精度和融合的GEMM。通过在计算时使用fp16精度,同时在fp16下读写,stable-fast超越了PyTorch的默认性能。该库还擅长实现NHWC和融合GroupNorm,借助OpenAI的triton,提供了高度优化的融合NHWC GroupNorm GELU操作符,消除了内存格式排列操作的需求,进一步提高了效率。

图源备注:图片由AI生成,图片授权服务商Midjourney
此外,stable-fast引入了完全跟踪模型的概念。它改进了torch.jit.trace接口,以使其更适合跟踪复杂模型。几乎可以跟踪和转换StableDiffusionPipeline的每个部分为TorchScript。它比torch.compile更稳定,CPU开销明显更低,并支持ControlNet和LoRA。
它还引入了融合多头注意力,使其与TorchScript兼容。与其他加速库相比,stable-fast的卓越速度是其独特之处,尤其在针对HuggingFace Diffusers进行优化时。此性能比较显示了其卓越的性能。作为PyTorch的极简主义插件框架,它无缝集成了现有的PyTorch功能和基础设施,同时支持各种加速和微调技术。总之,stable-fast准备为深度学习从业者的推理优化带来革命性的速度和效率。
蚂蚁集团正式完成投票权结构调整 变更为无实际控制人
据中国人民银行12月29日消息,人民银行同意支付宝(中国)网络技术有限公司变更为无实际控制人。作为蚂蚁集团的关联公司,恒生电子和国泰产险也于当日发布公告,由于蚂蚁集团股东上层投票权结构调整相关各方已履行程序并完成交割,三家公司均变更为无实际控制人。0000隔空拍照、AI飙戏,年轻人在五福找到过年新风格
大年夜22时18分,来自河南的张江准点打开自己此前集齐的5张福卡,领到了五福红包。这是支付宝第9年给全网用户发奖金,今年依然是5亿。支付宝发布的数据显示,今年,近6亿人次通过AI科技体验新年味,年轻人涌入支付宝视频“接财”、上直播间抢黄金和酒水,五福热度不减,依然是全民春节必备的仪式感。站长网2024-02-10 07:21:070000新晋乡村“顶流”,能带得动货吗
1月12日早9点,@八零徐姥姥一家如约出现在抖音直播间。和日常发布的短视频不同,一贯不怎么露面的视频拍摄者成成变成了首场直播的“主力”,负责在直播间和网友们聊天、介绍、带产品,妈妈和姥姥则穿着大花袄坐在一旁当“吉祥物”,大部分时间不怎么说话。站长网2024-01-22 17:55:200001神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观
这场等待「GPT-5」的游戏啥时候才能结束?GPT-5啥时候来?估计是AI领域最关心的问题之一了。是像Sora一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。站长网2024-05-01 15:06:590000用检索增强生成让大模型更强大,这里有个手把手的Python实现
自从人们认识到可以使用自己专有的数据让大型语言模型(LLM)更加强大,人们就一直在讨论如何有效地将LLM的一般性知识与专有数据整合起来。对此人们也一直在争论:微调和检索增强生成(RAG)哪个更合适?站长网2023-11-21 09:10:530003