MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍
**划重点:**
1. 🌟 Masked Diffusion Transformer V2MDTv2()在ImageNet benchmark上刷新SoTA,FID score达到1.58。
2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度,并解决了扩散模型在学习语义关系方面的难题。
3. 📄 论文和代码已开源,详细信息可查阅[GitHub地址](https://github.com/sail-sg/MDT)。
由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级,推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩,FID score达到1.58,刷新了State-of-the-Art(SoTA)。
作为Sora的核心技术之一,Diffusion Transformer(DiT)在图像生成领域取得了显著的成功,但其训练成本随着模型规模的增大而飙升。研究者发现,扩散模型难以高效地学习图像中物体各部分之间的语义关系,导致训练过程低收敛效率。为了解决这一问题,颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT),通过引入mask modeling表征学习策略,显著提升了DiT的训练效率。

MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略,增强了模型对上下文语义信息的学习能力,并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,MDT能够重建不完整输入图像的完整信息,提升图像生成的质量和学习速度。
具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder,在训练和推理阶段分别处理未被mask的token和所有token,确保了模型的一致性。
最新版本的MDT,即MDTv2,通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程,实现了训练速度的显著提升。在ImageNet256基准下,MDTv2相较于DiT,不仅在训练速度上提升了10倍以上,而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下,FID指标为39.50,明显领先于DiT-S/2的68.40。
总体而言,MDT的创新设计在扩散模型训练中引入了有效的语义信息学习,提高了图像生成的质量和训练速度。研究者认为,通过视觉表征学习增强对物理世界的语义理解,有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望,通过生成模型构建物理世界模拟器的理念,为未来的表征学习和生成学习研究提供了有力的启示。
项目入口:
京东采销年薪从16薪涨至20薪 7月1日起实施
今日,京东集团宣布,自2024年7月1日起,通过一年半时间,京东采销年度固定薪酬由16薪提升至20薪,业绩激励上不封顶!据了解,去年12月,京东集团宣布自2024年1月1日起,在岗的京东采销等一线业务人员的年固定薪酬将大幅上涨近100%。这一消息的发布旨在欢迎采销兄弟回家,并确保回家后福利司龄继续累计。站长网2024-05-27 19:35:550000拒绝“白嫖”!Stack Overflow 将矛头直指 ChatGPT 等产品:用了我的数据训练,得先给钱!
打不过就加入!继去年12月StackOverflow称ChatGPT生成的答案正确率非常低并决定宣布临时封禁ChatGPT之后,其开始以另一种身份加入这场AI竞赛中。站长网2023-04-24 16:28:300000这款小产品,卖了400万单!
各位村民好,我是村长这个账号值得大家一看,从头到尾,只卖一款产品,卖了400多万单。部分人一听到这样的案例,第一反应就是肯定是假的,肯定是刷单的等,而我希望大家用学习的眼光去看待抖音上这些案例。去思考,为什么别人做到了这种程度,而且还在持续的销售,这才是我们研究案例的意义所在。01家用场景人人需要站长网2024-02-23 18:16:540000谷歌推出由 Gemini 驱动的网络安全产品 强化网络钓鱼防御
在RSA大会上,Google宣布了一项重要的产品更新:GoogleThreatIntelligence,这是一款结合了Mandiant专业知识、VirusTotal社区资源以及Google全球设备和电子邮件情报的全新威胁情报解决方案。该产品旨在帮助企业更快地获得威胁洞察,并有效保护自己免受网络威胁。站长网2024-05-07 16:55:380002斯嘉丽起诉AI开发商上热搜 后者擅自使用肖像声音进行推广
好莱坞女演员斯嘉丽・约翰逊对一款未经授权的人工智能应用进行了法律诉讼。这款名为LisaAI:90sYearbook&Avatar的AI图像生成应用在推特上分享了一则22秒的广告,其中使用了约翰逊的名字和肖像。约翰逊的律师指出,广告中出现了约翰逊的画面和声音,推销了该AI应用。此类未经授权使用名人名字和肖像的情况在加利福尼亚等地被视为侵犯隐私,可进行民事索赔。站长网2023-11-02 09:44:150000