MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍
**划重点:**
1. 🌟 Masked Diffusion Transformer V2MDTv2()在ImageNet benchmark上刷新SoTA,FID score达到1.58。
2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度,并解决了扩散模型在学习语义关系方面的难题。
3. 📄 论文和代码已开源,详细信息可查阅[GitHub地址](https://github.com/sail-sg/MDT)。
由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级,推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩,FID score达到1.58,刷新了State-of-the-Art(SoTA)。
作为Sora的核心技术之一,Diffusion Transformer(DiT)在图像生成领域取得了显著的成功,但其训练成本随着模型规模的增大而飙升。研究者发现,扩散模型难以高效地学习图像中物体各部分之间的语义关系,导致训练过程低收敛效率。为了解决这一问题,颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT),通过引入mask modeling表征学习策略,显著提升了DiT的训练效率。
MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略,增强了模型对上下文语义信息的学习能力,并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,MDT能够重建不完整输入图像的完整信息,提升图像生成的质量和学习速度。
具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder,在训练和推理阶段分别处理未被mask的token和所有token,确保了模型的一致性。
最新版本的MDT,即MDTv2,通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程,实现了训练速度的显著提升。在ImageNet256基准下,MDTv2相较于DiT,不仅在训练速度上提升了10倍以上,而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下,FID指标为39.50,明显领先于DiT-S/2的68.40。
总体而言,MDT的创新设计在扩散模型训练中引入了有效的语义信息学习,提高了图像生成的质量和训练速度。研究者认为,通过视觉表征学习增强对物理世界的语义理解,有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望,通过生成模型构建物理世界模拟器的理念,为未来的表征学习和生成学习研究提供了有力的启示。
项目入口:
特斯拉推出玻璃裂纹贴花 售价55美元
特斯拉在Cybertruck开启交付后,其车载配件也正式在特斯拉商城陆续上线。其中,一款玻璃裂纹车窗贴纸引起了人们的关注。这款贴纸是特斯拉为了致敬在Cybertruck发布会上的一次尴尬名场面而特别推出的。站长网2023-12-01 17:59:410000MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”
要点:经过过度训练,中度模型如Transformer表现出结构性泛化能力,被称为"结构顿悟"(StructuralGrokking)。研究发现,对于Transformer类模型,长时间训练后,模型在泛化到新结构输入时能够有效地捕捉到句子的层级结构。结果显示,模型的深度对结构顿悟呈倒U形缩放,中深度模型的泛化能力较深度和浅度模型更强。站长网2023-12-08 15:01:400000成都“牵手门”女主,“复活”在直播间
当很多人已经淡忘八个月前登上热搜的“牵手门”时,事件的女当事人,开启了抖音直播。2023年6月,一条成都太古里街拍视频和几张街拍照片突然火了。有网友认出视频中的男女主角是中国石油北京项目管理公司员工,存在婚外情关系,一度引发互联网“吃瓜”热潮。站长网2024-02-21 09:21:300000CPU处理器价格越来越贵 笔记本除外:大跌9%
快科技4月30日消息,去年下半年到现在,PC市场也遇到了需求大幅下滑的难题,出货量创造了10多年来新低,AMD及Intel两大CPU厂商的业绩都不太好看,CPU价格反而越来越贵,不过桌面及笔记本情况又不同。Intel上周五发布了Q1季度财报,营收下滑了36%,创造了2010年以来的历史新低,并且连续2个季度亏损。站长网2023-05-12 20:40:350000联发科天玑8300处理器发布 峰值性能大幅提升
联发科天玑8300新品发布会于今日举行,该款新处理器正式与公众见面。天玑8300搭载了3.35GHz四核A715和2.2GHz四核A510CPU,并配备了Mali-G615MC6GPU。据联发科表示,天玑8300的CPU峰值性能相比其前作提升了20%,而功耗却降低了30%。至于GPU方面,天玑8300号称性能提升可达82%,同时功耗也降低了55%。0000