MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍
**划重点:**
1. 🌟 Masked Diffusion Transformer V2MDTv2()在ImageNet benchmark上刷新SoTA,FID score达到1.58。
2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度,并解决了扩散模型在学习语义关系方面的难题。
3. 📄 论文和代码已开源,详细信息可查阅[GitHub地址](https://github.com/sail-sg/MDT)。
由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级,推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩,FID score达到1.58,刷新了State-of-the-Art(SoTA)。
作为Sora的核心技术之一,Diffusion Transformer(DiT)在图像生成领域取得了显著的成功,但其训练成本随着模型规模的增大而飙升。研究者发现,扩散模型难以高效地学习图像中物体各部分之间的语义关系,导致训练过程低收敛效率。为了解决这一问题,颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT),通过引入mask modeling表征学习策略,显著提升了DiT的训练效率。
MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略,增强了模型对上下文语义信息的学习能力,并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,MDT能够重建不完整输入图像的完整信息,提升图像生成的质量和学习速度。
具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder,在训练和推理阶段分别处理未被mask的token和所有token,确保了模型的一致性。
最新版本的MDT,即MDTv2,通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程,实现了训练速度的显著提升。在ImageNet256基准下,MDTv2相较于DiT,不仅在训练速度上提升了10倍以上,而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下,FID指标为39.50,明显领先于DiT-S/2的68.40。
总体而言,MDT的创新设计在扩散模型训练中引入了有效的语义信息学习,提高了图像生成的质量和训练速度。研究者认为,通过视觉表征学习增强对物理世界的语义理解,有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望,通过生成模型构建物理世界模拟器的理念,为未来的表征学习和生成学习研究提供了有力的启示。
项目入口:
抖音将专项治理“非购物车锚点视频”违规行为
抖音发布了关于「非购物车锚点视频违规」的专项治理公告。通知称,部分创作者发布的引导进橱窗/店铺等“非购物车锚点视频”存在部分违规行为,违规视频内容包括进行虚假夸大描述、虚构商品来源或资质信息、使用国家级/最高级/最佳等绝对用语、虚假承诺、虚假描述商品/服务功效/效果、利用团队冲突/家庭矛盾/卖惨剧情表演炒作等违反《电商创作者管理总则》等平台规则的内容。站长网2023-06-17 23:47:280000谷歌面临集体诉讼:Chrome 浏览器涉嫌未经用户同意收集数据
最近,谷歌又陷入了一场法律纠纷,面临着一项针对其Chrome浏览器的数据收集行为的集体诉讼。这起诉讼最早是在2020年提出的,指控谷歌在用户未同意的情况下,通过Chrome收集了大量的用户数据。就在不久前,联邦诉法院推翻了2022年12月的裁决,决定此案应当重新审理。站长网2024-08-21 09:32:260000全球100位顶尖商业大佬如何看AI
1956年,计算机科学家约翰·麦卡锡在达特茅斯会议上,首次提出了“人工智能(ArtificialIntelligence)”。在此后近70年的时间里,人们对它既心怀憧憬,又充满警惕。乐观的观点认为,人工智能是堪比印刷术、电力和计算机的技术革命,它将带来第四次工业革命。0000微软 Teams Premium 正推出对基于 AI 的智能会议回顾功能
微软今年早些时候推出了针对企业客户的TeamsPremium服务。今天,该公司宣布了一个新功能,现已对TeamsPremium订阅者全面开放。这个功能被称为智能会议回顾,对于错过在线会议的员工或者想要回顾讨论内容的人来说,将提供巨大的帮助。站长网2023-05-31 21:00:330001小米三折叠手机专利曝光:2022年就已布局
站长之家(ChinaZ.com)9月18日消息:据国家知识产权局9月3日公开的信息显示,小米公司的一项关于“手机及其主体”的外观设计专利被公布。这项专利揭示了小米的三折叠手机设计方案,其采用了与华为相似的Z字形折叠方式。0000