新文生图模型PIXART-δ:引入ControlNet,加速文本生成图像生成
划重点:
🚀 PIXART-δ整合Latent Consistency Models(LCM)和ControlNet,实现高效实时图像生成。
🔬 创新ControlNet-Transformer设计,提升对Transformer模型的控制性能。
⚙️ 采用Latent Consistency Distillation(LCD)提高训练效率,支持低内存GPU。
📈 PIXART-δ在推理速度和性能上超越SDXL LCM-LoRA、PIXART-α,成为文本到图像领域的领先模型。
近年来,文本到图像生成模型的需求不断增长,但高质量图像的生成往往面临资源密集型训练和慢推理的挑战,制约了其实时应用。本文介绍了PIXART-δ,这是PIXART-α框架的先进版本,无缝整合了Latent Consistency Models(LCM)和定制的ControlNet模块。
PIXART-α以其高效的训练和优越的图像生成质量而闻名,为PIXART-δ提供了坚实的基础。LCM加速推理过程,仅需在预训练的Latent Diffusion Models(LDMs)上进行2∼4步操作即可生成高质量样本。这一改进使得PIXART-δ在A100GPU上实现了每秒0.5秒的惊人推理速度,相比PIXART-α提高了7倍。
在将ControlNet引入PIXART-δ时,由于其原本是为UNet架构设计的,当应用于基于Transformer的模型时,提出了一种新颖的ControlNet-Transformer架构。该设计在Transformer的初始N个基本块上选择性地应用ControlNet结构,显著提高了可控性和性能。
训练过程利用了Latent Consistency Distillation(LCD),这是原始Consistency Distillation(CD)算法的改进版本。通过算法1中的Classifier-Free Guidance(CFG)的PIXART-δ伪代码,Teacher、Student和EMA Model(图1中)充当ODE求解器的去噪器。创新的LCD算法通过FID和CLIP分数的评估展示了其有效性。
PIXART-δ的训练效率是一个重要亮点,成功在32GB GPU内存限制下进行蒸馏过程,支持高达1024×1024的图像分辨率。这种效率使得PIXART-δ能够在普通消费级GPU上进行训练,扩大了其可访问性。
在推理速度方面,PIXART-δ在不同硬件平台上都优于类似方法,如SDXL LCM-LoRA、PIXART-α和SDXL标准。仅需四个步骤,PIXART-δ在生成速度上保持领先地位,相比PIXART-α和SDXL标准所需的14和25步,展现了其高效性。
引入ControlNet到PIXART-δ中涉及将原始零卷积替换为专为Transformer架构定制的零线性层。ControlNet-Transformer设计在图4(c)中展示,选择性地将ControlNet应用于初始N个基本块,实现了对可控性和整体性能的无缝整合。
对ControlNet-Transformer进行的割除研究显示了其卓越性能,展示了在不同场景下更快的收敛速度和改善的性能。复制块的数量(N)发现对性能产生影响,对于大多数场景,N =1可以获得令人满意的结果,但在N增加的情况下在具有挑战性的边缘条件下性能得到改善。
分析训练步骤对ControlNet-Transformer(N =13)的影响,团队观察到快速收敛,特别是在提高轮廓边缘质量方面,尤其在处理人脸和身体的情况下尤为明显。ControlNet-Transformer的效率和效果进一步强调了其在实时应用中的潜力。
PIXART-δ代表了文本到图像生成领域的重大进展,将Latent Consistency Models的加速采样与ControlNet-Transformer的精确控制相结合。广泛的实验展示了PIXART-δ更快的采样速度和ControlNet-Transformer在高分辨率和受控图像生成方面的有效性。这一模型站在最前沿,为实时应用开辟了新的可能性。
PIXART-α核心特色功能可以总结如下:
1. **高级图像处理技术:** PIXART-α采用先进的图像处理算法,能够实现高质量、高清晰度的图像处理,提高图像的视觉效果。
2. **实时性能:** 该技术具有快速的实时性能,能够在实时应用中处理图像,并在短时间内生成优质结果。
3. **低功耗设计:** PIXART-α注重能效,采用低功耗设计,适用于需要长时间运行的设备,有助于延长电池寿命。
4. **多场景适应性:** 这一技术具有广泛的适应性,可以在多种场景下应用,包括移动设备、摄像头、智能家居等领域。
5. **智能识别功能:** PIXART-α内置智能识别功能,能够识别图像中的对象、场景等,提高图像分析的准确性和效率。
6. **支持多种图像格式:** 该技术支持处理多种图像格式,使其更具灵活性,能够适应不同的图像输入源。
7. **卓越的噪声抑制:** PIXART-α集成了卓越的噪声抑制技术,有效提高图像质量,减少由于噪声引起的视觉干扰。
项目网址入口:https://top.aibase.com/tool/pixart-
论文网址:https://arxiv.org/abs/2401.05252
github网址:https://github.com/PixArt-alpha/PixArt-alpha
从0到4万在线只用1个月:游戏蹿红,但作者跑路了?
最近一个多月,一款名为《PokéRogue(宝可梦肉鸽)》宝可梦同人网页游戏悄悄蹿红(游戏链接可见文末或阅读原文)。游戏在今年3月下旬发布,最初的人气并不高,只是在宝可梦社区慢慢发酵,但也吸引了一些宝可梦圈的爱好者在油管和X特上直播和发视频,这也让游戏的注册人数,在4月上旬逐渐来到10万的规模。“游戏初期没多少人关注,所以我做个视频(推广下)”站长网2024-06-11 17:20:330000AI日报:性能超GPT-4!通义千问2.5发布;Udio可局部编辑音轨;Dreamina正式更名为“即梦”;OpenAI探索允许用户“负责任” 地制作AI色情内容
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云发布通义千问2.5版性能赶超GPT-4Turbo站长网2024-05-09 16:41:330000详细规格一览!英伟达兼CEO黄仁勋CES大秀定档:将发布RTX 50系列显卡
快科技10月8日消息,今天CES正式发布公告,黄仁勋将在3个月后的当地时间1月6日发表主题演讲,这也意味着英伟达RTX50系列显卡要来了。汇总之前曝光的消息看,RTX5090显卡将采用PG144/145-SKU30的PCB设计,配备GB202-300-A1GPU核心。0000共享陪护床:优化医院环境的现代解决方案
过去十年,共享经济的发展可谓日新月异,无论是共享单车、共享充电宝,还是共享办公室,都极大地改变了我们的生活。然而,医疗健康领域中的一项创新,共享陪护床,可能尚未引起大家的广泛关注。陪伴亲人在医院的日子,对于每一位家属来说,都是极其辛苦的。狭窄的空间、硬实的床铺,不仅使得陪护家属身心俱疲,更有可能影响他们的正常工作和生活。而共享陪护床的出现,正是为了解决这一问题。站长网2023-05-23 14:11:480000快手程一笑:快意大模型或在半年内达 GPT4.0 水平
今日,快手公司发布了其2023年第四季度及全年业绩报告,数据显示,快手在2023年全年实现了显著的收入增长,总收入高达1134.7亿元,同比增长了20.5%。更值得一提的是,经过调整后,快手的净利润首次突破了百亿元大关,达到了102.7亿元。站长网2024-03-21 23:19:580000