刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！

站长网2024-10-24 09:12:120阅

今天凌晨，OpenAI发布了全新扩散模型方法sCM，仅需2步就能生成高质量图片、3D模型等实现50倍时钟加速，尤其是在高分辨率任务上相当出色。

例如，通过sCM训练了一个15亿参数的模型，在单个A100GPU上无需任何推理优化0.11秒内就能生成内容。

目前，扩散模型生成图片最快的是Stability AI开源的SD快速版本，4步就能生成高质量图片。而Scm在保证质量的前提下又将推理效率提升了1倍，同时简化了连续时间一致性模型的理论公式，允许模型在更大数据集上进行稳定的训练和扩展。

sCM的核心原理是基于一致性模型思路，通过直接将噪声转换为无噪声样本来生成数据。在传统扩散模型中，数据生成过程被视作一条从噪声到数据的渐进路径，每一步都通过去噪来逐渐恢复数据的清晰度。

一致性模型则恰恰相反，可找到一条更直接的路径，在单步或少数几步内直接从噪声状态跳跃到数据状态。

sCM采用了连续时间框架，使得模型在理论上可以在连续的时间轴上进行操作，从而避免了离散时间模型中的离散化误差。在连续时间于一致性模型中，模型的参数化、扩散过程和训练目标都被重新定义，以适应连续时间的设置。

例如，模型的参数化不再依赖于离散的时间步，而是直接依赖于时间本身。这种连续时间的参数化方式使得模型能够更精确地捕捉数据生成过程中的动态变化。

在网络架构方面，sCM引入了改进的时间条件、自适应组归一化、新的激活函数和自适应权重，以提高模型的训练稳定性和生成质量。改进的时间条件使得模型能够更准确地感知时间t的变化，从而在生成过程中做出更合理的决策。

自适应组归一化则有助于模型在训练过程中保持内部特征的稳定性，减少训练过程中的噪声干扰。新的激活函数被引入以增强模型的非线性表达能力，使得模型能够更好地学习复杂的数据分布。

而自适应权重的引入允许模型根据训练数据的分布动态调整损失函数中的权重，从而减少了不同时间步长之间的损失方差。

为了评估sCM的性能，研究人员在CIFAR-10、ImageNet64×64和ImageNet512×512多个数据集上进行了综合评测。结果显示，sCM成为目前最高效的扩散生成方法。

例如，在ImageNet512×512数据集上，sCM的模型达到了1.88FID，同时使用的算力更少、更高效。

有网友表示，如果把这个方法用在视频领域，那实时视频可能很快会到来。Sora的推理负担也会降低很多。

很高兴又看到OpenAI分享技术论文了。

如果把这个技术用在Sora，它应该快公测了吧?

这种简化的模型非常适合需要快速结果而不影响质量的应用!

这个模型相当有前途啊。

2步就能生成内容，这会再一次改变游戏规则啊。

把这个技术用在Sora，应该就快来了吧?

目前，OpenAI已经分享了该论文方法，是由两位华人提出来的。

论文地址:https://arxiv.org/abs/2410.11081

刚刚 OpenAI发布sCM提升50倍效率扩散模型重大技术突破

0000

评论列表

共(0)条

相关推荐

站长资讯
商汤回应自研大模型图片生产质疑：也提供第三方开源模型
据财联社报道，针对商汤技术交流日上精选模型出现AI模型站civitai的图片一事，商汤方面表示，秒画SenseMirage包含商汤自研AIGC大模型，也提供第三方社区开源模型，支持导入多个平台的开源模型或上传用户本地模型。用户可免除本地化部署流程，并基于开源模型自训练模型，高效地生成更多样的内容。
站长网2023-04-12 16:41:41
0000
行业领袖推动 AI 硬件革新，人工智能硬件领域的十大杰出人物
随着图形处理单元（GPU）短缺的持续，各公司及风险投资家正争相购买这些芯片以运行强大的AI模型。Nvidia（英伟达），一家在AI热潮中处于领先地位的芯片巨头，宣布计划将驱动AI革命的GPU产量增加三倍。其他硬件初创公司也在争相开发AI处理器。
站长网站长资讯2023-12-26 09:53:03
0000
站长资讯
微软开源 Azure ChatGPT 支持企业私有化部署
近日，微软开源了AzureChatGPT，这是专为企业打造的安全版ChatGPT。它的功能与ChatGPT基本一样，但最大的亮点是支持企业私有化部署，企业可以完全掌控数据和网络通信，避免数据泄露给外部机构。AzureChatGPT内置数据隐私保护功能，不会与OpenAI分享任何数据。企业可以通过自有数据对AzureChatGPT进行微调，更好地适应实际业务需求。
站长网2023-08-19 15:25:32
0001
站长资讯
苹果 iPhone 15 Pro 自定义「动作按钮」或是关键新功能之一
苹果日前向开发者发布了iOS17的第四个测试版，最新测试版中有一些新的代码片段，可能暗示了即将发布的iPhone15Pro和iPhone15ProMax上的传闻中的「动作按钮」的功能。
站长网2023-07-27 15:58:21
0000
站长资讯
微软与AI数据分析公司Synthetaic 签署新合作伙伴关系
文章概要:1.Synthetaic是一家专门从事地理空间数据分析的初创公司，它将获得近100万小时的MicrosoftAzure云计算资源。2.Synthetaic将与MicrosoftAzureSpace合作，提供新解决方案来处理地理空间、静态和视频图像数据。
站长网2023-08-31 11:36:04
0000