南洋理工发布提高AI视频生成内容一致性方法FreeInit

站长网2023-12-14 10:09:220阅

要点:

FreeInit方法提升视频扩散模型生成的时空一致性。

通过发现噪声初始化在视频扩散模型中存在的隐含训练-推理差距，提出了FreeInit，无需额外训练，不引入可学习参数。

FreeInit通过迭代优化推理初始噪声的时空低频组件，弥补训练和推理之间的初始化差距，显著提高生成结果的时空一致性。

南洋理工大学发布了一项名为FreeInit的方法，该方法可以大幅提高人工智能视频生成的内容一致性。演示显示这一方法非常流畅，并且可以与现有的SD生态结合。此外，他们还发表了与Animatediff结合的方法，只需等待一些专业人士制作插件，就可以使用这一方法。视频中展示了使用了FreeInit和未使用FreeInit的Animaetdiff的对比。

项目地址:https://tianxingwu.github.io/pages/FreeInit/

根据他们的介绍，他们深入研究了视频扩散模型的噪声初始化，并发现了一个隐含的训练-推断差距，导致了推断质量的下降。他们的关键发现包括推断时初始潜变量的信噪比（SNR）的时空频率分布与训练时本质上不同，以及去噪过程受到初始噪声的低频分量的显著影响。

在受到这些观察的启发下，他们提出了一种简洁而有效的推断采样策略FreeInit，该策略能够显著改善扩散模型生成的视频的时间一致性。通过在推断过程中迭代地优化初始潜变量的时空低频分量，FreeInit能够弥补训练和推断之间的初始化差距，从而有效改善生成结果的主体外观和时间一致性。

FreeInit以迭代方式改进推断初始噪声，通过DDIM采样、DDPM前向和噪声重新初始化，初始噪声的低频成分逐渐得到改进，从而持续增强时间一致性和主体外观。

这一方法的发布为人工智能视频生成领域带来了新的突破，将有望提高视频生成的质量和时间一致性。随着这一技术的不断发展和完善，相信将会为视频内容创作和人工智能应用带来更多的可能性。

南洋理工发布提高AI视频生成内容一致性方法FreeInit

0000

评论列表

共(0)条

相关推荐

站长资讯
OpenAI的吉卜力，撞车了被字节起诉“投毒AI”的前实习生？
站长网2025-04-04 09:29:42
0000
站长资讯
微软 Windows Terminal 正在获得智能 AI 功能：由 GitHub Copilot 加持的自然语言体验
微软正在将自然语言AI聊天机器人集成到其WindowsTerminal应用程序中。即将推出的GitHubCopilot聊天体验将作为微软进一步实验向Windows功能添加AI功能的一部分，可供WindowsTerminal用户使用。
站长网2023-05-24 11:12:16
0000
小红书的「电商红利」终于要来了？
这几年的电商世界风起云涌。短视频和直播给行业带来了全新变量，抖音电商、快手电商借内容能量冲击电商行业后，如今又搭起了货架，深入了传统电商熟悉的领域。电商格局将如何变化，是所有从业者都在关注的问题。相比之下，同为新兴平台的小红书的电商业务，多少显得有些“慢热”。
站长网站长资讯2023-08-28 11:11:19
0000
站长资讯
Oracle 在 Nvidia AI 中循环进行端到端模型开发
Nvidia的AI企业软件和DGX云已在Oracle云市场上推出了两个专用应用程序。通过这一合作，Oracle客户可以直接从市场购买Nvidia的AI技术，并在Oracle云基础设施上训练模型。
站长网2023-10-22 10:37:05
0000
站长资讯
OnnxStream：内存友好的机器学习推理引擎可在树莓派Zero 2上运行Stable Diffusion 1.5
OnnxStream是一款专注于减少内存占用、提高推理效率的机器学习推理引擎。它的设计目标是在资源受限的环境中运行深度学习模型，如树莓派Zero2，该设备只有512MB的RAM。通过OnnxStream，用户现在可以在这种低功耗设备上运行复杂的算法，这对于需要在移动环境中处理大量数据的用户来说是一个重大突破。项目地址:
站长网2023-10-08 10:27:33
0000