汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
想要AI生成更长的视频?
现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
它最长可支持512帧(假设帧率按30fps算,理论上那就是能生成约17秒长的作品了)。
可应用于任何视频生成模型,比如AnimateDiff、LaVie等等。
以及还能支持多文本生成,比如可以让骆驼一会跑一会停:
(提示词:”A camelrunningon the snow field.” -> “……standing……”)
这项成果来自腾讯AI Lab、南洋理工大学以及港科大,入选了ICLR2024。
值得一提的是,与此前业内性能最佳的同类方法带来255%的额外时间成本相比,它仅产生约17%的时间成本,因此直接可以忽略不计。
可以说是成本和性能两全了~
具体来看看。
通过重新调度噪声实现
该方法主要解决的是两个问题:
一是现有视频生成通常在有限数量的帧上完成训练,导致推理过程中无法生成高保真长视频。
二是这些模型还仅支持单文本生成(即使你给了“一个人睡在桌子上,然后看书”这种提示词,模型也只会响应其中一个条件),而应用到现实中其实是需要多文本条件,毕竟视频内容是会随时间不断变化的。
在此,作者首先分析视频扩散模型的时间建模机制,并研究了初始噪声的影响,提出免调优、实现更长视频推理的FreeNoise。
具体而言,以VideoLDM模型为例,它生成的帧不仅取决于当前帧的初始噪声,还取决于所有帧的初始噪音。
这意味着,由于临时注意力层负责促成整个交互,所以对任何帧的噪声重新采样都会显著影响其它帧。
产生的问题就是我们要想保持原视频主要内容的同时引入新东西就很难。
在此,作者检查VideoLDM的时间建模机制发现,其中的时间注意力模块是顺序无关的,而时间卷积模块是顺序相关的。
实验观察表明,每帧噪声是决定视频整体外观的基础,而它们的时间顺序会影响建立在该基础上的内容。
受此启发,作者提出了FreeNoise,其关键思想是构建一个具有长程相关性的噪声帧序列,并通过基于窗口的融合对其进行时间关注。
它主要包括两个关键设计:局部噪声去除和基于窗口的注意力融合。
通过将局部噪声混洗应用于固定随机噪声帧序列以进行长度扩展,作者实现了具有内部随机性和长程相关性的噪声帧序列。
同时,基于窗口的注意力融合使预先训练的时间注意力模块能够处理任何较长的帧。
并且最重要的是,重叠窗口切片和合并操作只发生在时间注意力上,而不会给VideoLDM的其他模块带来计算开销,这也大大提高了计算效率。
接下来,为了解决多文本条件问题,作者则提出了动作注入(Motion Injection)方法。
其核心利用的是扩散模型不同步骤在去噪过程中恢复不同级别信息(图像布局、物体形状和精细视觉细节)的特性。
在模型完成上一个动作之后,该方法就在与物体形状相关的时间步长内逐渐注入新的运动。
这样的操作,既保证多提示长视频生成,又具备很好的视觉连贯性。
超越此前最先进的无调优方法
首先来看长视频生成的结果。
可以看到,FreeNoise诠释“宇航服吉娃娃”和“熊猫吃披萨”这两个场景最为连贯自然。
相比之下,直接推理的(最左列)的狗有严重伪影且没有生成背景,Gen-L-Video(此前最先进的无调优方法)则由于无法保持长距离的视觉一致性,存在明显内容突变。
定性结果也用数据证明了FreeNoise的效果:
其中CLIP-SIM的得分代表该方法做到了良好的内容一致性。
其次是多文本条件生成效果。
可以看到该方法(中间列和最右列)可以实现连贯的视觉显示和运动:
骆驼从奔跑逐渐变为站立,远处的山脉一直保持同样的外观。
定性结果如下:
可以看到该方法在内容一致性、视频质量和视频文本对齐都实现SOTA,且与第二名拉开的差距几乎达到两倍之多。
最后,再给大家展示一下FreeNoise用在潜视频扩散模型AnimateDiff、LaVie上的效果。
AnimateDiff:
第一列为原效果,第二列为应用后的效果。
LaVie:
效果提升都是肉眼可见的~
哦对,还有生成的满打满算512帧的视频,大家觉得效果如何呢:
通讯作者之一是汤晓鸥弟子
本文一共7位作者。
一作为南洋理工大学计算机科学与工程学院博士生邱浩楠。
他的研究方向为AIGC、对抗性机器学习和深伪检测,本科毕业于港中文。
通讯作者有两位:
一位是腾讯AI Lab视觉计算中心研究员Menghan Xia。
他的研究方向为计算机视觉和深度学习,尤其是图像/视频的生成和翻译。
Menghan Xia博士毕业于港中文,本硕先后毕业于武汉大学的摄影测量与遥感学、模式识别与智能系统专业。
另一位是南洋理工大学计算机科学与工程学院助理教授刘子纬。
他2017年博士毕业于港中文,师从汤晓鸥教授和王晓刚教授。
毕业后曾在UC伯克利做博士后、港中文担任四年研究员。
论文:
https://arxiv.org/abs/2310.15169
Huggingface体验demo:
https://huggingface.co/spaces/MoonQiu/LongerCrafter
—完—
iQOO Neo8推出16+1TB超大存储版本
站长之家(ChinaZ.com)10月20日消息:iQOONeo8推出了16GB1TB的超大存储版本,但尚未公布价格。这款手机拥有一块144Hz1.5K的护眼直屏,支持1200Hz瞬时采样率,具备SGS低蓝光认证,智能调节屏幕亮度、色温。屏幕峰值亮度可达1300nit,支持双压感。站长网2023-10-20 10:52:3400002024年结束,哪里是原创动画的应许之地?
2024年即将落幕,这一年国产动画市场逐渐呈现出清晰且多元的态势。视频平台依旧是动画行业的重要力量,各家平台有的以“爽文漫”吸引观众,有的深耕“新国风”赛道,有的依靠大IP与大制作,在异能和科幻题材中持续发力。市场上IP改编作品依旧是主流。行业早早就有了共识,依靠IP,动画作品成功率相对稳定,原著受众作底,动画视听吸引新观众,最终圈层融合实现商业变现。站长网2024-12-23 14:19:380000OPPO Find N3 Flip正式发布 售价 6799 元起
OPPOFindN3Flip正式发布,12GB256GB版本6799元、12GB512GB版本7599元。该机被誉为小折叠手机标杆,在工业设计、影像等方面全面升级。这款手机搭载了联发科天玑9200芯片,配备LPDDR5X内存和UFS4.0闪存,内置4300mAh电池,支持44W快充,折叠后厚度约为16.45mm,展开后厚度约为7.79mm,重量约为198g。站长网2023-08-29 16:15:140000公众号阅读页面又要更新了!
最近微信又在测试好玩的了!见实持续关注最近的微信测试版更新时,发现一个有趣的小变化:公众号文章页改版啦,读者可以直接在页面底部看到该篇文章的公众号名称图标、在看数量、转发数量、点赞数量和留言数量。这个小功能的更新或将让人们更加关注文章质量,观点鲜明,立场坚定的文章会更加有市场与传播力。就跟着见实一起来了解一下吧。如下,Enjoy:01公众号文章页改版站长网2023-12-25 17:31:510000小米汽车回应交付周期过长:已开启双班倒 日产能可达600-800台
快科技9月10日消息,小米汽车最近在社交平台上宣布,其超级工厂在实施双班生产模式后,日产能已达到600至800台,若每周按6天计算,周产能在3600至4800台之间。自小米SU7首车上市以来,市场对其产能和交付能力一直高度关注。小米汽车App显示,小米SU7Pro和小米SU7Max的交付周期分别预计为20至23周和21至24周。站长网2024-09-11 21:14:070000