中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练
要点:
1. UNet的long skip connection上的scaling操作可以稳定模型训练。
2. Scaling系数的设置影响模型性能,可以通过学习或固定的方式实现。
3. 对扩散模型任务在训练过程中特征和参数的可视化有助于理解模型稳定性。
扩散模型中,UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中,如Imagen和Score-based generative model中,已经观察到设置scaling系数可以有效加速模型的训练过程。
但是,过去这种操作缺乏具体的分析,只是经验性地认为能够起到加速作用。现有研究发现,合理设置scaling系数可以缓解特征不稳定,进而提高模型对输入扰动的鲁棒性。
项目地址:https://github.com/sail-sg/ScaleLong
这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化,研究人员发现了模型训练过程中的不稳定现象,这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。
通过引入可学习的模块,如Learnable Scaling (LS) Method,可以自适应地调整scaling系数,进一步稳定模型的训练。
此外,研究人员提出了一种无需额外参数的Constant Scaling (CS) Method,简化了模型实现过程。虽然LS在稳定训练上表现更好,但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁,只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性,为这一领域的发展提供了新的思路和方向。
Google推出针对Google Workspace的人工智能驱动安全增强功能
随着企业加速云迁移,如何保障云端数据安全性日益成为首要考虑因素。日前,谷歌宣布将大幅增强GoogleWorkspace产品的安全能力,特别是利用人工智能防止企业云数据的泄露。站长网2023-08-25 10:54:060000暴雪回应《守望先锋2》差评轰炸:很高兴看到新玩家
快科技8月20日消息,近日,暴雪将《守望先锋2》搬上了Steam,并在解锁后遭到了连绵不绝的差评轰炸。截至本文成稿,在该作149579篇评论中,差评占比已经达到了夸张的91%;其中中文评论的差评率更是有着97%之高。目前,针对这一情况,暴雪终于在官网发布了公告,做出回应。在回应中,暴雪方面表示,称虽然受到评论轰炸并不是一种有趣的经历,但很高兴看到许多新玩家第一次进入《守望先锋2》。”站长网2023-08-21 09:23:140000中国AI今天的问题,是大模型又多又乱
OpenAI的开发者日活动后,GPTs模式引发了新一轮的AI热潮,开发者调用过分火爆,甚至导致OpenAI服务器一度宕机。随后,花式把玩GPTs的经验,以及围绕这种新形态的巨大争议开始涌现。中国的IT从业者、软件开发者与AI工程师也积极参与讨论,迎来了一场新的AI狂欢。站长网2023-11-21 18:05:010000专家:未来30年人工智能可能替代足球裁判
文章概要:1.专家预测未来30年内,足球裁判可能会被机器人替代,因为人工智能已在VAR和门线技术中发挥关键作用。2.随着数据质量的提高,比赛可能会由人工智能机器执法,不再需要现场裁判。3.人工智能和机器学习在足球领域的应用不仅局限于裁判,还包括数据分析和战术决策。站长网2023-09-06 18:26:080000微软发布Phi-4,最强小模型!参数极小、超GPT-4o
微软研究院发布了最强小参数模型——Phi-4。Phi系列模型自今已经发布了5代,Phi-4也延续了之前的小参数模式只有140亿。但在GPQA研究生水平、MATH数学基准中,分别达到了56.1和80.4超过了GPT-4o,同时也超过了同类型的开源模型Qwen2.5-14B和Llama-3.3-70B。0000