出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
好的研究不会被埋没,只会历久弥新。
虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!
其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV2023接收。
论文地址:https://arxiv.org/pdf/2212.09748v2.pdf
GitHub 地址:https://github.com/facebookresearch/DiT
这两天,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。
论文出现在 PapersWithCode 的 Trending Research 榜单上,星标数量已近2700;还登上了 GitHub Trending 榜单,星标数量每日数百增长,Star 总量已超3000。
来源:https://paperswithcode.com/
来源:https://github.com/facebookresearch/DiT
这篇论文最早的版本是2022年12月,2023年3月更新了第二版。当时,扩散模型在图像生成方面取得了惊人的成果,几乎所有这些模型都使用卷积 U-Net 作为主干。
因此,论文的目的是探究扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 transformer)取代。
具体来说,研究者提出了一种基于 transformer 架构的新型扩散模型 DiT,并训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。
研究者尝试了四种因模型深度和宽度而异的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。
他们发现,通过增加 Transformer 深度 / 宽度或增加输入 token 数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。
除了良好的可扩展性之外,DiT-XL/2模型在 class-conditional ImageNet512×512和256×256基准上的性能优于所有先前的扩散模型,在后者上实现了2.27的 FID SOTA 数据。
质量、速度、灵活性更好的 SiT
此外,DiT 还在今年1月迎来了升级!谢赛宁及团队推出了 SiT(Scalable Interpolant Transformer,可扩展插值 Tranformer),相同的骨干实现了更好的质量、速度和灵活性。
谢赛宁表示,SiT 超越了标准扩散并通过插值来探索更广阔的设计空间。
该论文标题为《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。
论文地址:https://arxiv.org/pdf/2401.08740.pdf
GitHub 地址:https://github.com/willisma/SiT
简单来讲,SiT 将灵活的插值框架集成到了 DiT 中,从而能够对图像生成中的动态传输进行细微的探索。SiT 在 ImageNet256的 FID 为2.06,将基于插值的模型推向了新的高度。
论文一作、纽约大学本科生 Nanye Ma 对这篇论文进行了解读。本文认为,随机插值为扩散和流提供了统一的框架。但又注意到, 基于 DDPM(去噪扩散概率模型)的 DiT 与较新的基于插值的模型之间存在性能差异。因此,研究者想要探究性能提升的来源是什么?
他们通过设计空间中的一系列正交步骤,逐渐地从 DiT 模型过渡到 SiT 模型来解答这一问题。同时仔细评估了每个远离扩散模型的举措对性能的影响。
研究者发现,插值和采样器对性能的影响最大。当将插值(即分布路径)从方差保留切换到线性以及将采样器从确定性切换到随机性时,他们观察到了巨大的改进。
对于随机采样,研究者表明扩散系数不需要在训练和采样之间绑定,在推理时间方面可以有很多选择。同时确定性和随机采样器在不同的计算预算下各有其优势。
最后,研究者将 SiT 描述为连续、速度可预测、线性可调度和 SDE 采样的模型。与扩散模型一样,SiT 可以实现性能提升,并且优于 DiT。
微星明天将发布尊爵系列AI笔记本 首批搭载酷睿Ultra处理器
今天,微星官方宣布将在12月15日下午3点正式发布尊爵系列AI笔记本电脑,并首批搭载全新酷睿Ultra处理器。此次发布的首发型号包括尊爵16AIEvo和尊爵13AIEvo。微星尊爵系列AI笔记本电脑一直以高性能和精美的外观著称。新款笔记本预计将搭载Ultra7155H处理器,规格为6P8E2LPE,共16核22线程,最高睿频为4.8GHz,24MB的三级缓存,TDP为28W。0001Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
要点:1.研究团队开发了名为MemWalker的树形记忆策略,使大型语言模型能够突破窗口长度限制,实现长文本的阅读和回答问题,而无需额外训练。2.MemWalker的工作原理分为记忆树构建和导航检索两个阶段,其中长文本被分割成小段,大模型对每段进行总结形成"叶子节点"和"非叶节点",非叶节点用于定位答案,叶子节点用于推理答案。站长网2023-10-25 12:56:330001苹果上海“Apple 静安店”宣布将于3 月 21 日开业
3月21日晚7点,备受瞩目的上海第八家苹果直营店即将揭开神秘面纱。这家名为“Apple静安店”的新店,坐落在繁华的上海市静安区南京西路1699号,将为苹果爱好者们带来全新的购物体验。在盛大的开业活动中,上海交响乐团将在3月21日亲临“Apple静安店”,献上精彩绝伦的现场演奏,为这一盛事增添浓厚的艺术氛围。站长网2024-03-11 08:47:390000没了工作的中年人,在咖啡馆假装上班
中年人有着太多不得不硬撑的坚强。“周一,星巴克几乎被失业的中年男女占满”,最近,社交平台上一则热帖引发广泛关注。图源/脉脉人到中年,往往在职场上发挥着中流砥柱的作用,在家庭中也扮演着赚钱主力军的角色。然而,就业环境瞬息万变,曾经的精英人士,也许转眼之间便光环不再。一些人为了不把失业的焦虑传递给家人,决定每天照常出门假装上班,把咖啡馆当作暂时的避难所。站长网2023-05-28 10:45:550000小米首款智能家庭面板售罄 众筹金额超238万
小米首款智能家庭面板于近日开售,价格为299元。目前,在小米商城和小米有品平台上,这款智能家庭面板非常受欢迎,已经全部售罄。众筹金额超过238万元。据悉,小米智能家庭面板的规格包括3.23英寸触控屏、3个实体按键、内置蓝牙Mesh网关,可同时连接100个蓝牙Mesh设备和100个蓝牙子设备。官方声称能控制超过5500种智能设备,并支持智能设备联动,以及多种个性化智能场景自定义。站长网2023-10-12 11:59:510000