支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。
现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。
第二组则使用扩散模型(Diffusion model)来合成逼真的视频。这些方法兼具稳定训练和强大迁移能力的优势,相较于基于 GAN 的方法表现更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。
尽管基于扩散模型的方法取得了显著进展,但现有的方法仍存在两个限制:一是需要额外的参考网络(ReferenceNet)来编码参考图像特征并将其与3D-UNet 的主干分支进行表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方法只能生成24帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口策略可以生成更长的视频,但团队作者发现这种方式容易导致片段重合连接处通常存在不流畅的转换和外貌不一致性的问题。
为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了UniAnimate 框架,以实现高效且长时间的人类视频生成。
![](https://i.zz5.net/images/article/2024/06/09/003033750.jpg)
论文地址:https://arxiv.org/abs/2406.01188
项目主页:https://unianimate.github.io/
方法简介
UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中,然后利用统一的视频扩散模型(Unified Video Diffusion Model)同时处理参考图像与视频主干分支表观对齐和视频去噪任务,实现高效特征对齐和连贯的视频生成。
其次,研究团队还提出了一种统一的噪声输入,其支持随机噪声输入和基于第一帧的条件噪声输入,随机噪声输入可以配合参考图像和姿态序列生成一段视频,而基于第一帧的条件噪声输入(First Frame Conditioning)则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式,推理时可以通过把前一个视频片段(segment)的最后一帧当作后一个片段的第一帧来进行生成,并以此类推在一个框架中实现长视频生成。
最后,为了进一步高效处理长序列,研究团队探索了基于状态空间模型(Mamba)的时间建模架构,作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果,但是需要的显存开销更小。
![](https://i.zz5.net/images/article/2024/06/09/003033765.jpg)
通过 UniAnimate 框架,用户可以生成高质量的时序连续人类跳舞视频。值得一提的是,通过多次使用 First Frame Conditioning 策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate 具有以下优势:
无需额外的参考网络:UniAnimate 框架通过统一的视频扩散模型,消除了对额外参考网络的依赖,降低了训练难度和模型参数的数量。
引入了参考图像的姿态图作为额外的参考条件,促进网络学习参考姿态和目标姿态之间的对应关系,实现良好的表观对齐。
统一框架内生成长序列视频:通过增加统一的噪声输入,UniAnimate 能够在一个框架内生成长时间的视频,不再受到传统方法的时间限制。
具备高度一致性:UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的策略,保证了生成视频的平滑过渡效果,使得视频在外观上更加一致和连贯。这一策略也使得用户可以生成多个视频片段,并选取生成结果好的片段的最后一帧作为下一个生成片段的第一帧,方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口策略生成长视频,则无法进行分段选择,因为每一段视频在每一步扩散过程中都相互耦合。
以上这些特点使得 UniAnimate 框架在合成高质量、长时间的人类跳舞视频方面表现出色,为实现更广泛的应用提供了新的可能性。
生成结果示例
1. 基于合成图片进行跳舞视频生成。
![](https://i.zz5.net/images/article/2024/06/09/003033797.jpg)
![](https://i.zz5.net/images/article/2024/06/09/003033828.jpg)
2. 基于真实图片进行跳舞视频生成。
![](https://i.zz5.net/images/article/2024/06/09/003033860.jpg)
![](https://i.zz5.net/images/article/2024/06/09/003033891.jpg)
3. 基于粘土风格图片进行跳舞视频生成。
![](https://i.zz5.net/images/article/2024/06/09/003033922.jpg)
![](https://i.zz5.net/images/article/2024/06/09/003033953.jpg)
4. 马斯克跳舞。
![](https://i.zz5.net/images/article/2024/06/09/003033984.jpg)
5. Yann LeCun 跳舞。
![](https://i.zz5.net/images/article/2024/06/09/003034015.jpg)
6. 基于其他跨域图片进行跳舞视频生成。
![](https://i.zz5.net/images/article/2024/06/09/003034047.jpg)
7. 一分钟跳舞视频生成。
,时长01:05
获取原始 MP4视频和更多高清视频示例请参考论文的项目主页https://unianimate.github.io/。
实验对比分析
1. 和现有方法在 TikTok 数据集上的定量对比实验。
![](https://i.zz5.net/images/article/2024/06/09/003034062.jpg)
如上表所示,UniAnimate 方法在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果,说明了 UniAnimate 可以生成高保真的结果。
2. 和现有方法的定性对比实验。
![](https://i.zz5.net/images/article/2024/06/09/003034094.jpg)
从上述定性对比实验也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方法可以生成更好的连续结果,没有出现明显的 artifacts,表明了 UniAnimate 的有效性。
3. 剥离实验。
![](https://i.zz5.net/images/article/2024/06/09/003034109.jpg)
从上表的数值结果可以看出,UniAnimate 中用到的参考姿态和统一视频扩散模型对性能提升起到了很关键的作用。
4. 长视频生成策略对比。
![](https://i.zz5.net/images/article/2024/06/09/003034125.jpg)
从上图可以看出之前常用的时序重合滑动窗口策略生成长视频容易导致不连续的过渡,研究团队认为这是因为不同窗口在时序重合部分去噪难度不一致,使得生成结果不同,而直接平均会导致有明显的变形或者扭曲等情况发生,并且这种不一致会进行错误传播。而本文利用的首帧视频延续生成方法则可以生成平滑的过渡。
更多的实验对比结果和分析可以参考原论文。
总而言之,UniAnimate 的示例结果表现和定量对比结果很不错,期待 UniAnimate 在各个领域的应用,如影视制作、虚拟现实和游戏产业等,为用户带来更为逼真、精彩的人类形象动画体验。
华为Mate 60关键参数曝光:骁龙8 4G芯片、1.5K屏幕
快科技8月4日消息,博主数码闲聊站透露,华为Mate60系列目前还没有备案,也没有进入试产阶段,因此9月份不一定能发布。值得注意的是,数码闲聊站暗示,华为Mate60系列搭载高通骁龙84G平台。站长网2023-08-05 09:10:540000同方知网与华为云签约共建华知大模型
8月30日,在华为云盘古大模型主题论坛上,同方知网数字出版技术股份有限公司与华为云计算技术有限公司正式签署中华知识大模型(华知大模型)及人工智能联合创新实验室合作协议。双方将基于华为云盘古大模型打造知识服务行业的AI大模型,实现知识服务行业高度智能化发展,推进更深层次的行业数字化转型。站长网2023-08-30 17:29:350000曝特斯拉将在中国建立自驾数据中心!还要采用NVIDIA最先进芯片
快科技5月19日消息,据媒体报道,有多名知情人士透露,特斯拉正在考虑在中国收集数据,并在中国建立数据中心进行数据处理以及训练自动驾驶技术算法,进而推动其FSD系统的全球部署。这也是特斯拉CEO埃隆马斯克战略转变的一部分,此前其坚持将在中国收集的数据转移到海外处理。目前,尚不清楚特斯拉将如何处理这些自动驾驶数据,是否会同时采用数据传输和本地数据中心两种方式,或者将两者视为平行计划。站长网2024-05-20 10:39:170000京东回应途虎养车索赔500万:震虎价将再升级 加码补贴5亿
站长之家(ChinaZ.com)1月25日消息:针对途虎养车起诉京东索赔500万元的事件,京东作出了回应。京东养车相关负责人表示,他们将进一步提升“震虎价”的力度,并联合品牌商家额外增加5亿元的补贴。途虎养车起诉京东的原因是认为“震虎价”影响了其商誉,并要求赔偿500万元。京东方面则认为,养车市场存在价格虚高、服务参差不齐等问题,这些问题直接影响消费者的体验。站长网2024-01-25 14:00:230000Salesforce调查:68%的员工支持生成式AI,以帮助改善工作
Salesforce的一项新调查发现,68%的员工表示,生成式人工智能将帮助他们更好地为客户服务。Salesforce的GenerativeAISnapshotResearch调查了4000多名全职员工。研究发现,73%的员工认为生成式人工智能会带来新的安全风险,尽管大多数人使用或计划使用该技术。站长网2023-06-22 12:28:040000