南洋理工发布提高AI视频生成内容一致性方法FreeInit
要点:
FreeInit方法提升视频扩散模型生成的时空一致性。
通过发现噪声初始化在视频扩散模型中存在的隐含训练-推理差距,提出了FreeInit,无需额外训练,不引入可学习参数。
FreeInit通过迭代优化推理初始噪声的时空低频组件,弥补训练和推理之间的初始化差距,显著提高生成结果的时空一致性。
南洋理工大学发布了一项名为FreeInit的方法,该方法可以大幅提高人工智能视频生成的内容一致性。演示显示这一方法非常流畅,并且可以与现有的SD生态结合。此外,他们还发表了与Animatediff结合的方法,只需等待一些专业人士制作插件,就可以使用这一方法。视频中展示了使用了FreeInit和未使用FreeInit的Animaetdiff的对比。

项目地址:https://tianxingwu.github.io/pages/FreeInit/
根据他们的介绍,他们深入研究了视频扩散模型的噪声初始化,并发现了一个隐含的训练-推断差距,导致了推断质量的下降。他们的关键发现包括推断时初始潜变量的信噪比(SNR)的时空频率分布与训练时本质上不同,以及去噪过程受到初始噪声的低频分量的显著影响。
在受到这些观察的启发下,他们提出了一种简洁而有效的推断采样策略FreeInit,该策略能够显著改善扩散模型生成的视频的时间一致性。通过在推断过程中迭代地优化初始潜变量的时空低频分量,FreeInit能够弥补训练和推断之间的初始化差距,从而有效改善生成结果的主体外观和时间一致性。
FreeInit以迭代方式改进推断初始噪声,通过DDIM采样、DDPM前向和噪声重新初始化,初始噪声的低频成分逐渐得到改进,从而持续增强时间一致性和主体外观。
这一方法的发布为人工智能视频生成领域带来了新的突破,将有望提高视频生成的质量和时间一致性。随着这一技术的不断发展和完善,相信将会为视频内容创作和人工智能应用带来更多的可能性。
OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?
站长网2025-04-04 09:29:420000微软 Windows Terminal 正在获得智能 AI 功能:由 GitHub Copilot 加持的自然语言体验
微软正在将自然语言AI聊天机器人集成到其WindowsTerminal应用程序中。即将推出的GitHubCopilot聊天体验将作为微软进一步实验向Windows功能添加AI功能的一部分,可供WindowsTerminal用户使用。站长网2023-05-24 11:12:160000小红书的「电商红利」终于要来了?
这几年的电商世界风起云涌。短视频和直播给行业带来了全新变量,抖音电商、快手电商借内容能量冲击电商行业后,如今又搭起了货架,深入了传统电商熟悉的领域。电商格局将如何变化,是所有从业者都在关注的问题。相比之下,同为新兴平台的小红书的电商业务,多少显得有些“慢热”。0000Oracle 在 Nvidia AI 中循环进行端到端模型开发
Nvidia的AI企业软件和DGX云已在Oracle云市场上推出了两个专用应用程序。通过这一合作,Oracle客户可以直接从市场购买Nvidia的AI技术,并在Oracle云基础设施上训练模型。站长网2023-10-22 10:37:050000OnnxStream:内存友好的机器学习推理引擎 可在树莓派Zero 2上运行Stable Diffusion 1.5
OnnxStream是一款专注于减少内存占用、提高推理效率的机器学习推理引擎。它的设计目标是在资源受限的环境中运行深度学习模型,如树莓派Zero2,该设备只有512MB的RAM。通过OnnxStream,用户现在可以在这种低功耗设备上运行复杂的算法,这对于需要在移动环境中处理大量数据的用户来说是一个重大突破。项目地址:站长网2023-10-08 10:27:330000