训练成本降低16倍,极限压缩42倍!开源文本生成图片模型
Stable Diffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。
为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。以512x512尺寸的训练图片为例,Stable Diffusion1.4需要150,000小时的GPU训练时间,而Wuerstchen仅需要9,000小时,训练成本降低了16倍。
即便是图片分辨率高达1536,Wuerstchen也只需要24,602小时,训练成本仍然比Stable Diffusion便宜6倍。
所以,该开源产品有利于那些没有庞大算力的开发者去尝试扩散模型,同时可以在此基础之上探索更好的训练方法。

开源地址:https://huggingface.co/warp-ai/wuerstchen
Github:https://github.com/dome272/Wuerstchen
论文:https://arxiv.org/abs/2306.00637
Wuerstchen简单介绍
Wuerstchen扩散模型采用了一种,在图像的高度压缩的潜在空间中的工作方法。这也是其训练成本比Stable Diffusion低的原因之一。
压缩数据可以将训练和推理的成本减少几个数量级。例如,在1024×1024的图像上训练肯定要比32×32上训练贵得多。通常业内采用的压缩范围在4—8倍左右。
而Wuerstchen通过全新的技术架构将压缩发挥到极限,实现了42倍空间压缩,这是史无前例的技术突破!因为一旦超过16倍压缩,普通方法根本无法实现图片的重建。

Wuerstchen极限压缩原理
Wuerstchen的极限压缩方法分为A、B、C三个阶段:A阶段)进行初始训练,并采用向量量化生成对抗网络 (VQGAN) 来创建离散化潜在空间,将数据映射到一个预定义的、较小的集合中的点,这种紧凑的表示形式有助于模型学习和推理速度;
B阶段)进一步压缩,使用一个编码器将图像投影到一个更加紧凑的空间,和一个解码器试图从编码的图像中重建VQGAN的潜在表达。
并使用了基于Paella模型的标记预测器来完成这个任务。该模型是在编码图像的表示的条件下进行的,可以使用更少的采样步骤数量进行训练,这对于提升算力效率帮助巨大。

C阶段)使用A、B的图像编码器将图像投射到紧凑的潜在空间,训练一个文本条件的潜在扩散模型,并显著减少空间维度。这个离散的潜在空间允许模型生成,更具有多样性和创新性的图像,同时还保留了图片的高质量特征。

Wuerstchen可以生成的图片尺寸
Wuerstchen接受了1024x1024和1536x1536分辨率之间的图像训练数据,输出的图片质量非常稳定。即便是1024x2048这样的非对等图片,同样可以得到很好的效果。

开发者还发现,Wuerstchen对新分辨率图片的训练适应能力非常强,在2048x2048分辨率图片下进行数据微调,同样能极大降低成本。
Wuerstchen生成图片展示
根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美Stable Diffusion等目前最强开源扩散模型。
Google承包商加入工会,抗议“报复性”裁员
🔍划重点:1.Google承包商加入AlphabetWorkersUnion(AWU),抗议对试图组建工会的同事进行的“报复性”裁员。2.承包商团队在遭到裁员后,投票决定与AWU组建工会,旨在争取更好的工资、福利和法律保护。3.NLRB决定Google和Accenture在美国的GoogleContentCreationOperations团队中属于联合雇主,引发抗议。站长网2023-11-08 10:11:220000一加12和一加Ace3将率先支持黑屏指纹解锁功能
一加手机官方宣布,一加12和一加Ace3两款机型将作为首批推送黑屏指纹解锁功能的手机。这一功能允许用户在屏幕处于黑屏状态下,通过触摸指纹区域直接完成解锁,极大地提升了用户的解锁体验。值得注意的是,一加12和一加Ace3成为了OPPO旗下唯二支持该功能的手机,这进一步突显了一加品牌在创新技术方面的领先地位。站长网2024-02-02 16:47:010000首位走出考场的考生喊话马化腾 麻烦把QQ空间改回老版
6月7日消息,今天是2023年全国高考的第一天,全国1291万名学生踏进考场,展望着未来。据媒体报道,在上午考试结束后,杭州十四中的考生出来时发表的言论引发了网上的热议。这位考生向马化腾喊话说:“腾讯能把QQ空间改回老版本吗?新版本太难用了。”对此,腾讯QQ官方迅速回应:“鹅收到了你的喊话,非常感谢你的建议!请先专注考试,等考试结束后,我们会第一时间联系你!祝你高考顺利!”站长网2023-06-07 19:12:130000清华AIR开源轻量版生物医药基础模型BioMedGPT
日前,清华智能产业研究院(AIR)开源轻量版BioMedGPT1.6B。据悉,BioMedGPT-1.6B是一个参数为16亿的生物医药领域轻量级科研版基础模型,具有跨模态与知识融合的特点,可以处理药物性质预测、自然语言类、跨模态等多种任务。BioMedGPT-1.6B是清华智能产业研究院(AIR)团队正在做的BioMedGPT的单机轻量版,后者是一个适用于生物医药领域研发的通用大模型。站长网2023-04-21 10:14:380000李想发全员信自我批评:理想汽车不再单纯追求销量
理想汽车CEO李想近日发布全员信,深入剖析了公司近期面临的挑战,并针对理想MEGA汽车的上市节奏以及过分关注销量的欲望问题,提出了解决方案。站长网2024-03-22 02:32:000000