HuggingFace diffusers轻量快速推理引擎stable-fast上线
不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,这一引擎表现出色,赢得了众多开发者的青睐。
目前,stable-fast处于测试阶段,可能存在一些问题,但它承诺为深度学习爱好者带来颠覆性的变革。
项目地址:https://github.com/chengzeyi/stable-fast
stable-fast的设计目标是优化HuggingFace Diffusers在NVIDIA GPU上的推理。它利用一组强大的技术来确保高效的性能。其中一个显著特点是CUDNN卷积融合,它能够实现卷积、偏差、加法和激活计算模式的无缝融合。这确保了您的模型运行尽可能高效。
另一个显著特点是实现了低精度和融合的GEMM。通过在计算时使用fp16精度,同时在fp16下读写,stable-fast超越了PyTorch的默认性能。该库还擅长实现NHWC和融合GroupNorm,借助OpenAI的triton,提供了高度优化的融合NHWC GroupNorm GELU操作符,消除了内存格式排列操作的需求,进一步提高了效率。
图源备注:图片由AI生成,图片授权服务商Midjourney
此外,stable-fast引入了完全跟踪模型的概念。它改进了torch.jit.trace接口,以使其更适合跟踪复杂模型。几乎可以跟踪和转换StableDiffusionPipeline的每个部分为TorchScript。它比torch.compile更稳定,CPU开销明显更低,并支持ControlNet和LoRA。
它还引入了融合多头注意力,使其与TorchScript兼容。与其他加速库相比,stable-fast的卓越速度是其独特之处,尤其在针对HuggingFace Diffusers进行优化时。此性能比较显示了其卓越的性能。作为PyTorch的极简主义插件框架,它无缝集成了现有的PyTorch功能和基础设施,同时支持各种加速和微调技术。总之,stable-fast准备为深度学习从业者的推理优化带来革命性的速度和效率。
Alphabet 将在谷歌 I/O 上公布 AI 更新:推出其最新、最先进大型语言模型 PaLM 2
人工智能将是GoogleI/O年度开发者大会的一个中心主题。CNBC获悉,该公司计划在周三的年度开发者大会上宣布一些生成式人工智能的更新,包括推出一个通用的大型语言模型(LLM)。站长网2023-05-09 08:59:030000国人自己的操作系统!华为鸿蒙OS 4.0下周发布:官方海报大有玄机
快科技7月30日消息,一年一度的华为开发者大会2023(HDC.Together)将于8月4日至8月6日在东莞松山湖举办。相比去年,今年的华为开发者大会足足提前了3个月,而本次大会主角之一无疑是全新国产操作系统鸿蒙OS4(HarmonyOS4)。官方之前用了3个词来形容鸿蒙OS4有个性、超好玩、新体验,除此以外,华为日前公布的一组预热海报也大有玄机。0000直播电商的“高质量发展”,到底是什么?
消费者不断成长,作为电商内容提供方的直播电商行业同样也在不断发展,在此情境中,到底什么才是直播电商行业未来的发展方向,什么才能定义直播电商发展的“高质量”?对于大多数行业而言,今年的618大促,在各种意义上都被寄予厚望。一方面,各个电商平台都投入了前所未有的折扣力度和内容建设,留住和招徕更多的消费者;另一方面,经过数年迭代进化之后,直播电商行业也逐渐登堂入室,成为众所周知的风口。站长网2023-06-29 04:07:130001OnePlus11 和 12 手机将迎来人工智能功能更新
据Reddit上发布的ColorOS更新透露,OnePlus11和12即将引入人工智能功能。尽管在OnePlus12推出时未包含大型人工智能功能,但最新的更新表明,至少在中国市场,这些功能已经加入。尽管它还没有像其他安卓手机那样全面拥有人工智能功能,但OnePlus显然正在朝着这个方向发展。站长网2024-02-04 09:52:280001北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%
要点:1.北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC,以评估大型语言模型在复杂多模态环境中的性能。2.评估表明,GPT-4是在创建新PPT文档任务中表现最强的模型,但仍然存在挑战,如错误累积、处理长PPT模板的能力差,以及多模态指令的复杂性。站长网2023-11-07 22:05:350000