中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

站长网2024-03-01 10:59:230阅

要点:

1. UNet的long skip connection上的scaling操作可以稳定模型训练。

2. Scaling系数的设置影响模型性能，可以通过学习或固定的方式实现。

3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。

扩散模型中，UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中，如Imagen和Score-based generative model中，已经观察到设置scaling系数可以有效加速模型的训练过程。

但是，过去这种操作缺乏具体的分析，只是经验性地认为能够起到加速作用。现有研究发现，合理设置scaling系数可以缓解特征不稳定，进而提高模型对输入扰动的鲁棒性。

项目地址:https://github.com/sail-sg/ScaleLong

这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化，研究人员发现了模型训练过程中的不稳定现象，这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

通过引入可学习的模块，如Learnable Scaling （LS） Method，可以自适应地调整scaling系数，进一步稳定模型的训练。

此外，研究人员提出了一种无需额外参数的Constant Scaling （CS） Method，简化了模型实现过程。虽然LS在稳定训练上表现更好，但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁，只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性，为这一领域的发展提供了新的思路和方向。

中山大学等提出ScaleLong扩散模型scaling操作可以稳定模型训练

0000

评论列表

共(0)条

相关推荐

站长资讯
萨姆·奥特曼带火Airchat，硅谷对语音社交念念不忘
2021年春季，当时在硅谷科技圈处于绝对C位的马斯克，带火了一款语音社交应用Clubhouse，甚至一时间Clubhouse的邀请码呈现出“洛阳码贵”的景象，全球诸多用户更是为了参与硅谷最潮流的圈子选择一掷千金。然而三年时间过去后，随着特斯拉股价暴跌导致财富缩水，以及在X上的“倒行逆施”，马斯克让出了这个位置，如今硅谷的“新王”变成了人工智能巨头OpenAI的CEO萨姆·奥特曼。
站长网2024-05-03 01:00:13
0000
站长资讯
奇安信：已能够识别多种AI伪造生成的虚假图片视频
奇安信5月25日在互动平台表示，目前已深入布局生成式人工智能模型，并拥有在网络安全领域一流的人工智能团队和研发能力。奇安信人工智能研究院基于自身积累海量知识和大数据，在深度伪造、深度鉴伪等技术取得了重大突破，已经能够准确识别多种前沿AI伪造技术生成的虚假图片视频，可以成为防止生成式人工智能生成虚假信息的有力武器。
站长网2023-05-25 16:37:55
0002
站长资讯
马毅教授CRATE-α模型首次证实白盒Transformer可扩展性
马毅教授团队最近取得了显著的研究成果，他们开发的CRATE-α模型首次证实了白盒Transformer架构的可扩展性。这一进展对于自然语言处理（NLP）、图像处理和视觉计算领域的深度表征学习具有重要意义。
站长网2024-06-06 20:46:09
0000
苹果版“余额宝”开局迅猛！Apple Card四天吸金69亿元
快科技5月2日消息，早些时候，苹果推出了被用户称为苹果版余额宝”的AppleCard高收益储蓄账户服务。今天，根据《福布斯》最新发布的报告，AppleCard服务仅开业前四天，就已经吸纳了将近10亿美元（约合人民币69亿元）的存款，这一开局可以说是相当迅猛。
站长网站长资讯2023-05-02 09:16:54
0000
站长资讯
腾讯发布多模态音乐生成模型M2UGen 支持图片、视频生成音乐
M2UGen是一款引领潮流的框架，融合了音乐理解和多模态音乐生成任务，旨在助力用户进行音乐艺术创作。通过其强大的功能，M2UGen提供了全方位的音乐生成和编辑体验。体验地址:https://top.aibase.com/tool/m2ugen
站长网2024-01-03 11:02:12
0002