首页站长资讯新文生图模型PIXART-δ:引入ControlNet，加速文本生成图像生成

新文生图模型PIXART-δ:引入ControlNet，加速文本生成图像生成

站长网2024-01-17 14:28:250阅

划重点:

🚀 PIXART-δ整合Latent Consistency Models（LCM）和ControlNet，实现高效实时图像生成。

🔬 创新ControlNet-Transformer设计，提升对Transformer模型的控制性能。

⚙️ 采用Latent Consistency Distillation（LCD）提高训练效率，支持低内存GPU。

📈 PIXART-δ在推理速度和性能上超越SDXL LCM-LoRA、PIXART-α，成为文本到图像领域的领先模型。

近年来，文本到图像生成模型的需求不断增长，但高质量图像的生成往往面临资源密集型训练和慢推理的挑战，制约了其实时应用。本文介绍了PIXART-δ，这是PIXART-α框架的先进版本，无缝整合了Latent Consistency Models（LCM）和定制的ControlNet模块。

PIXART-α以其高效的训练和优越的图像生成质量而闻名，为PIXART-δ提供了坚实的基础。LCM加速推理过程，仅需在预训练的Latent Diffusion Models（LDMs）上进行2∼4步操作即可生成高质量样本。这一改进使得PIXART-δ在A100GPU上实现了每秒0.5秒的惊人推理速度，相比PIXART-α提高了7倍。

在将ControlNet引入PIXART-δ时，由于其原本是为UNet架构设计的，当应用于基于Transformer的模型时，提出了一种新颖的ControlNet-Transformer架构。该设计在Transformer的初始N个基本块上选择性地应用ControlNet结构，显著提高了可控性和性能。

训练过程利用了Latent Consistency Distillation（LCD），这是原始Consistency Distillation(CD)算法的改进版本。通过算法1中的Classifier-Free Guidance(CFG)的PIXART-δ伪代码，Teacher、Student和EMA Model(图1中)充当ODE求解器的去噪器。创新的LCD算法通过FID和CLIP分数的评估展示了其有效性。

PIXART-δ的训练效率是一个重要亮点，成功在32GB GPU内存限制下进行蒸馏过程，支持高达1024×1024的图像分辨率。这种效率使得PIXART-δ能够在普通消费级GPU上进行训练，扩大了其可访问性。

在推理速度方面，PIXART-δ在不同硬件平台上都优于类似方法，如SDXL LCM-LoRA、PIXART-α和SDXL标准。仅需四个步骤，PIXART-δ在生成速度上保持领先地位，相比PIXART-α和SDXL标准所需的14和25步，展现了其高效性。

引入ControlNet到PIXART-δ中涉及将原始零卷积替换为专为Transformer架构定制的零线性层。ControlNet-Transformer设计在图4（c）中展示，选择性地将ControlNet应用于初始N个基本块，实现了对可控性和整体性能的无缝整合。

对ControlNet-Transformer进行的割除研究显示了其卓越性能，展示了在不同场景下更快的收敛速度和改善的性能。复制块的数量（N）发现对性能产生影响，对于大多数场景，N =1可以获得令人满意的结果，但在N增加的情况下在具有挑战性的边缘条件下性能得到改善。

分析训练步骤对ControlNet-Transformer（N =13）的影响，团队观察到快速收敛，特别是在提高轮廓边缘质量方面，尤其在处理人脸和身体的情况下尤为明显。ControlNet-Transformer的效率和效果进一步强调了其在实时应用中的潜力。

PIXART-δ代表了文本到图像生成领域的重大进展，将Latent Consistency Models的加速采样与ControlNet-Transformer的精确控制相结合。广泛的实验展示了PIXART-δ更快的采样速度和ControlNet-Transformer在高分辨率和受控图像生成方面的有效性。这一模型站在最前沿，为实时应用开辟了新的可能性。

PIXART-α核心特色功能可以总结如下:

1. **高级图像处理技术:** PIXART-α采用先进的图像处理算法，能够实现高质量、高清晰度的图像处理，提高图像的视觉效果。

2. **实时性能:** 该技术具有快速的实时性能，能够在实时应用中处理图像，并在短时间内生成优质结果。

3. **低功耗设计:** PIXART-α注重能效，采用低功耗设计，适用于需要长时间运行的设备，有助于延长电池寿命。

4. **多场景适应性:** 这一技术具有广泛的适应性，可以在多种场景下应用，包括移动设备、摄像头、智能家居等领域。

5. **智能识别功能:** PIXART-α内置智能识别功能，能够识别图像中的对象、场景等，提高图像分析的准确性和效率。

6. **支持多种图像格式:** 该技术支持处理多种图像格式，使其更具灵活性，能够适应不同的图像输入源。

7. **卓越的噪声抑制:** PIXART-α集成了卓越的噪声抑制技术，有效提高图像质量，减少由于噪声引起的视觉干扰。

项目网址入口：https://top.aibase.com/tool/pixart-

论文网址：https://arxiv.org/abs/2401.05252

github网址：https://github.com/PixArt-alpha/PixArt-alpha

新文生图模型PIXART引入ControlNet加速文本生成图像生成

0000

评论列表

共(0)条

相关推荐

苹果iOS 18将升级新版Siri：引入AI 支持自然对话能力
知名苹果爆料人马克·古尔曼（MarkGurman）在最新一期《PowerOn》中透露，苹果计划在6月份的全球开发者大会(WWDC)上推出一系列基于生成式人工智能(AI)的工具。其中，升级版的Siri作为iOS18的一部分，将首次具备自然对话的能力，为用户提供更加个性化的体验。
站长网站长资讯2024-01-08 11:38:22
0003
站长资讯
免费“白嫖” GPT-4 方法 +1，飙升 GitHub 热榜第二！开发者锐评：跟“偷”有什么区别？
前不久，可“白嫖”GPT-4的ForefrontChat吸引了众多关注，导致该网站一度崩溃，也令不少人发出疑问:“GPT-4这么贵，为什么它能免费让我们用?”
站长网2023-04-27 09:23:01
0007
站长资讯
苹果 iPhone 16 或回归与 iPhone 12 一样的垂直摄像头布局
根据Twitter账号@URedditor分享的信息，低端iPhone16型号的后置摄像头镜头将采用垂直排列。这种设计变化很可能也会应用于iPhone16Plus。iPhone14垂直摄像头布局
站长网2023-05-23 11:58:48
0001
站长资讯
再见，抖音一哥
张一鸣似乎想明白了，抖音一哥，德不配位，后患无穷。小杨哥翻车后，抖音一哥无人接任转眼间，小杨哥已经在直播间消失三个多月了。今年9月，由于带货翻车，三只羊被罚款6894.91万元，并被责令暂停经营限期整改。不少人好奇:今年双11，没了三只羊，谁会站上抖音带货直播间的C位?
站长网2024-12-02 20:03:18
0000
花式情侣博主们，正在成为年轻人的甜蜜“代餐”
最近一段时间，一系列花式秀恩爱的情侣博主成为了广大网友的恋爱“代餐”，他们有的分享甜蜜日常，有的抽象整活，有的通过高颜值吸引用户关注。从校园里青涩相依的纯真模样，到步入社会后柴米油盐中的坚守陪伴;从分享甜蜜浪漫的约会点滴，到袒露争吵磨合后的成长感悟，情侣博主们以百态爱情编织了一张甜蜜的网，通过镜头分享给了广大用户。
站长网站长资讯2024-12-02 12:13:36
0000