训练成本降低16倍,极限压缩42倍!开源文本生成图片模型
Stable Diffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。
为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。以512x512尺寸的训练图片为例,Stable Diffusion1.4需要150,000小时的GPU训练时间,而Wuerstchen仅需要9,000小时,训练成本降低了16倍。
即便是图片分辨率高达1536,Wuerstchen也只需要24,602小时,训练成本仍然比Stable Diffusion便宜6倍。
所以,该开源产品有利于那些没有庞大算力的开发者去尝试扩散模型,同时可以在此基础之上探索更好的训练方法。

开源地址:https://huggingface.co/warp-ai/wuerstchen
Github:https://github.com/dome272/Wuerstchen
论文:https://arxiv.org/abs/2306.00637
Wuerstchen简单介绍
Wuerstchen扩散模型采用了一种,在图像的高度压缩的潜在空间中的工作方法。这也是其训练成本比Stable Diffusion低的原因之一。
压缩数据可以将训练和推理的成本减少几个数量级。例如,在1024×1024的图像上训练肯定要比32×32上训练贵得多。通常业内采用的压缩范围在4—8倍左右。
而Wuerstchen通过全新的技术架构将压缩发挥到极限,实现了42倍空间压缩,这是史无前例的技术突破!因为一旦超过16倍压缩,普通方法根本无法实现图片的重建。

Wuerstchen极限压缩原理
Wuerstchen的极限压缩方法分为A、B、C三个阶段:A阶段)进行初始训练,并采用向量量化生成对抗网络 (VQGAN) 来创建离散化潜在空间,将数据映射到一个预定义的、较小的集合中的点,这种紧凑的表示形式有助于模型学习和推理速度;
B阶段)进一步压缩,使用一个编码器将图像投影到一个更加紧凑的空间,和一个解码器试图从编码的图像中重建VQGAN的潜在表达。
并使用了基于Paella模型的标记预测器来完成这个任务。该模型是在编码图像的表示的条件下进行的,可以使用更少的采样步骤数量进行训练,这对于提升算力效率帮助巨大。

C阶段)使用A、B的图像编码器将图像投射到紧凑的潜在空间,训练一个文本条件的潜在扩散模型,并显著减少空间维度。这个离散的潜在空间允许模型生成,更具有多样性和创新性的图像,同时还保留了图片的高质量特征。

Wuerstchen可以生成的图片尺寸
Wuerstchen接受了1024x1024和1536x1536分辨率之间的图像训练数据,输出的图片质量非常稳定。即便是1024x2048这样的非对等图片,同样可以得到很好的效果。

开发者还发现,Wuerstchen对新分辨率图片的训练适应能力非常强,在2048x2048分辨率图片下进行数据微调,同样能极大降低成本。
Wuerstchen生成图片展示
根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美Stable Diffusion等目前最强开源扩散模型。
惨!Rabbit R1被持续扒皮:AI风口一夜转型,NFT充值用户欲哭无泪,动作大模型也是套壳的
一波未平一波又起,不光APP被批评套壳安卓,主推的大动作模型LAM依赖OpenAI接口,现在公司也被扒皮有猫腻——Rabbit公司本来是搞元宇宙的,原地改名转投AI?!这家曾经主打NFT游戏的创业公司,去年转型做AI终端(即R1)。并在转型后疑似“删号跑路”,留下一堆曾为其付费的用户不管。站长网2024-05-06 21:09:220000国家邮政局:1-4月快递业务量累计完成371.0亿件
据国家邮政局消息,1-4月,邮政行业寄递业务量累计完成468.0亿件,同比增长13.7%。其中,快递业务量累计完成371.0亿件,同比增长17.0%。1-4月,邮政行业业务收入(不包括邮政储蓄银行直接营业收入)累计完成4732.1亿元,同比增长12.1%。其中,快递业务收入累计完成3514.4亿元,同比增长12.2%。站长网2023-05-22 11:30:590000加拿大 AI 初创公司 Tenstorrent 与 LG 电子合作打造人工智能和 RISC-V 芯片
加拿大人工智能计算机设计初创公司Tenstorrent周二宣布与韩国消费电子公司LG电子合作,共同打造用于智能电视、汽车产品和数据中心的芯片。站长网2023-05-31 10:46:210000蔡崇信:中国AI技术可能落后美国OpenAI两年
快科技4月5日消息,据媒体报道,阿里巴巴联合创始人、董事长蔡崇信坦诚地指出,在AI技术领域,中国相较于美国存在一定的差距”。他进一步指出,与美国的顶级大型语言模型(LLM)如OpenAIChatGPT相比,中国可能落后两年”。然而,这并不意味着中国在这一领域的追赶步伐会放缓。0000这个搞钱的生意太绝了!
各位村民好,我是村长。普通人绝对想不到或看不上这个生意!就算脑海里有这样的念头,也是一闪而过,最终没有落地。今天就和大家简短的聊一聊,文章不长。核心目的还是启发大家,做些思路延展,不要思维定式,多思考别人为什么能行。01大量真实的小需求今天要分享的这个生意是提供各种合同模板工具的,比如收入证明、工作证明、租房合同、离职证明、承诺保证书、授权委托等等。1、收入模式站长网2024-06-01 21:38:300001