训练成本降低16倍,极限压缩42倍!开源文本生成图片模型
Stable Diffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。
为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。以512x512尺寸的训练图片为例,Stable Diffusion1.4需要150,000小时的GPU训练时间,而Wuerstchen仅需要9,000小时,训练成本降低了16倍。
即便是图片分辨率高达1536,Wuerstchen也只需要24,602小时,训练成本仍然比Stable Diffusion便宜6倍。
所以,该开源产品有利于那些没有庞大算力的开发者去尝试扩散模型,同时可以在此基础之上探索更好的训练方法。
开源地址:https://huggingface.co/warp-ai/wuerstchen
Github:https://github.com/dome272/Wuerstchen
论文:https://arxiv.org/abs/2306.00637
Wuerstchen简单介绍
Wuerstchen扩散模型采用了一种,在图像的高度压缩的潜在空间中的工作方法。这也是其训练成本比Stable Diffusion低的原因之一。
压缩数据可以将训练和推理的成本减少几个数量级。例如,在1024×1024的图像上训练肯定要比32×32上训练贵得多。通常业内采用的压缩范围在4—8倍左右。
而Wuerstchen通过全新的技术架构将压缩发挥到极限,实现了42倍空间压缩,这是史无前例的技术突破!因为一旦超过16倍压缩,普通方法根本无法实现图片的重建。
Wuerstchen极限压缩原理
Wuerstchen的极限压缩方法分为A、B、C三个阶段:A阶段)进行初始训练,并采用向量量化生成对抗网络 (VQGAN) 来创建离散化潜在空间,将数据映射到一个预定义的、较小的集合中的点,这种紧凑的表示形式有助于模型学习和推理速度;
B阶段)进一步压缩,使用一个编码器将图像投影到一个更加紧凑的空间,和一个解码器试图从编码的图像中重建VQGAN的潜在表达。
并使用了基于Paella模型的标记预测器来完成这个任务。该模型是在编码图像的表示的条件下进行的,可以使用更少的采样步骤数量进行训练,这对于提升算力效率帮助巨大。
C阶段)使用A、B的图像编码器将图像投射到紧凑的潜在空间,训练一个文本条件的潜在扩散模型,并显著减少空间维度。这个离散的潜在空间允许模型生成,更具有多样性和创新性的图像,同时还保留了图片的高质量特征。
Wuerstchen可以生成的图片尺寸
Wuerstchen接受了1024x1024和1536x1536分辨率之间的图像训练数据,输出的图片质量非常稳定。即便是1024x2048这样的非对等图片,同样可以得到很好的效果。
开发者还发现,Wuerstchen对新分辨率图片的训练适应能力非常强,在2048x2048分辨率图片下进行数据微调,同样能极大降低成本。
Wuerstchen生成图片展示
根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美Stable Diffusion等目前最强开源扩散模型。
独家|内测兴趣社区,支付宝再战社交?
Tech星球独家获悉,支付宝于近期内测一项名为“兴趣社区”的社交功能,定位是发现有趣找到玩伴,用户可以在社区内体验潮酷生活,结识同频兴趣玩伴。目前,该功能还处于内测阶段。这是支付宝继2016年推出“圈子”后,又一次尝试社区形态的社交服务。但相比此前的“圈子”功能,兴趣社区的玩法更加多样,且更契合当下最火的搭子社交,通过兴趣作为纽带,有助于用户之间寻找到社交共同点。站长网2024-01-04 09:17:350000百度副总裁深夜致歉:将改进个人沟通方式和管理方式
近日,百度副总裁璩静因在短视频平台发布的一系列言论而引发社会广泛关注。其中,“公关员工不可以有假期”、“员工离职秒批”等表述在社交媒体上引发热议,多个话题迅速登上微博热搜。然而,随着舆论的发酵,璩静在抖音平台的作品已被删除或隐藏。站长网2024-05-09 15:05:520000支付宝发起“AI造物挑战赛” 300万人参与DIY手机壳
近期,小红书博主“iam肥肥羊”分享了一条图文笔记,教大家如何在支付宝进行“薅羊毛”,赢得了近1万个赞。他介绍了在支付宝扭扭节活动期间参与“AI造物挑战赛”的方法,用户可以通过AI创作DIY手机壳图案,并分享获得赞数来免费获得定制手机壳。站长网2023-08-08 15:44:480000预测超长蛋白质这事,CPU赢了
AI模型的推理在CPU上完成加速和优化,竟然不输传统方案?至少在生命科学和医疗制药方向,已经透露出这种信号。例如在处理AlphaFold2这类大型模型这件事上,大众普遍的认知可能就是堆GPU来进行大规模计算。但其实从去年开始,CPU便开始苦练内功,使端到端的通量足足提升到了原来的23.11倍。而现如今,CPU让这个数值greatagain——再次提升3.02倍!站长网2023-07-02 18:04:300000OpenAI 向好莱坞导演展示视频生成系统 Sora
划重点:⭐️OpenAI正在向好莱坞电影制片厂和导演展示其视频生成AI系统Sora。⭐️该AI系统Sora可能在今年公开发布,引发了好莱坞对AI技术在电影制作中的接受度。⭐️在AI生成影像引发争议的背景下,涉及到工作岗位、创作权等方面的讨论持续进行。站长网2024-03-25 11:18:100000