新图像合成模型LCM SD生成图片推导步骤减少至4步!
要点:
研究人员提出了一种新的图像合成模型,称为潜在一致性模型(LCM),可以在少步推理的情况下生成高分辨率的图像。
LCM是从预训练的潜在扩散模型(LDM)中有效地提取出来的,可以直接预测潜在空间中的概率流ODE的解,避免了多次迭代的需要。
LCM还引入了一种新的微调方法,称为潜在一致性微调(LCF),可以在定制的图像数据集上进行快速的少步推理,实现了文本到图像的生成。
图像合成是计算机视觉领域的一个重要研究方向,目标是根据给定的条件生成逼真的图像。近年来,潜在扩散模型(LDM)在这方面取得了显著的成果,能够生成高分辨率和高质量的图像。然而,LDM的一个主要缺点是它们需要进行多次迭代的采样过程,导致生成速度缓慢。
为了解决这个问题,本文受一致性模型的启发,提出了一种新的图像合成模型,称为潜在一致性模型(LCM)。LCM可以利用任何预训练的LDM,包括稳定扩散模型(SD),并通过少步推理生成高分辨率的图像。LCM的核心思想是将引导反向扩散过程视为求解一个增广概率流ODE(PF-ODE),并设计一个网络来直接预测该ODE在潜在空间中的解,从而减少迭代次数和计算量。
LCM可以从预训练的无分类器引导扩散模型中有效地提取出来,在只需要32个A100GPU小时的训练时间内,就可以生成768×768分辨率的高质量图像。以往我们用 SD 生成图片起码需要20步的推导步骤,但是使用 LCM 只需要4步就行,从一些测试结果看6-8步可能是一个理想的步骤。
项目地址:https://latent-consistency-models.github.io/
这个技术可以让4090在1秒钟生成10张512X512大小的图片.如果可以用在 Animetadiff 中的话可以大幅提高视频生成效率。
此外,论文还介绍了一种新的微调方法,称为潜在一致性微调(LCF),它专门用于在定制的图像数据集上微调预训练的LCM。LCF不需要教师扩散模型,只需要少量数据和训练步骤,就可以使LCM产生具有定制风格的图像。
论文在LAION-5B-Aesthetics数据集上对LCM进行了评估,结果表明LCM在文本到图像生成任务上达到了最先进的性能,并且具有快速、高保真、低失真和低噪声等优点。
论文还展示了LCM使用LCF在Pokemon和Simpsons两个定制数据集上生成图像的效果,证明了LCM具有良好的泛化能力和适应能力。
本文为图像合成领域提供了一种新颖且有效的方法,不仅提高了生成速度和质量,还降低了训练成本和数据需求。本文也为进一步探索潜在空间中的一致性和结构提供了一个有益的尝试。
百度“萝卜快跑”获准在京开展大兴机场自动驾驶载人示范应用
百度旗下的自动驾驶服务品牌“萝卜快跑”最近宣布,他们首批获准在北京大兴机场高速和部分区域进行自动驾驶车辆载人示范应用。这意味着北京成为全球首个开展城区至机场自动驾驶载人示范应用的首都城市。这一举措表明“萝卜快跑”自动驾驶服务场景得到进一步扩展,未来将实现城区道路到机场高速的自动驾驶贯通运行,让用户能够享受无需换乘一站直达的便利。站长网2024-02-23 14:16:220000AI 办公小助理,为打工人减负还是增重?
张逸是一名北京在读的物理学博士研究生。一天,他需要将语言matlab,转换成Python。这属于科研的辅助工作,写代码不是他的专长,通常为此要花费两个小时,他的常规做法是对照着代码一行一行改语法。但是他想到ChatGPT,也许可以试试。站长网2024-06-14 17:45:160000卢伟冰:目前AI手机只是有AI功能 小米澎湃OS2.0才是真正的AI手机
快科技8月23日消息,AI手机成为当下热门题材,各大厂商都号称最新推出的智能手机带AI功能。对于AI手机”,卢伟冰分享了自己的观点:到目前发布的号称AI手机的都是AIFeature手机,也就是用AI的技术做了一些AI功能。在卢伟冰看来,真正的AI手机是搭载基于AI大模型重构的操作系统。小米澎湃OS2.0就承担这一使命!澎湃OS是小米在去年10月份发布的系统,正式接替MIUI。站长网2024-08-27 07:25:210001史上首次!抖音集团成2024年巴黎奥运会持权转播商
快科技6月14日消息,今日,抖音集团宣布与中央广播电视总台达成合作,成为2024年巴黎奥运会持权转播商。此次合作,也是抖音集团首次成为奥运会的持权转播商。据了解,巴黎奥运会将于7月26日至8月11日举行。期间,用户在抖音集团旗下的抖音、今日头条等平台,都可以观看奥运会赛事点播、全场回放。抖音还将推出场内外资讯、多档独家体育节目等丰富内容。0000百度网盘变了!进化成学习神器:音视频转文稿、加字幕,还能一键生成PPT!
你绝对想不到现在最fashion的学习“姿势”是什么——百度网盘!你以为只是拿它用来存储课件、资料吗?不不不,现在的百度网盘已经不是“你以为的你以为”,摇身一变成了妥妥的学习神器。例如你想学习一下现在巨火的提示工程(PromptEngineering),在网上搜到了一个极好的视频课程资源。然而点开一看:全英文,没字幕🐶……△课程素材来自微软站长网2023-11-10 16:55:360000