南洋理工开源创新性文生视频模型FreeInit
要点:
1、创新性文生视频模型FreeInit通过重新初始化噪声,改进时间的一致性。
2、研究人员发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除。
3、FreeInit通过多次迭代重复采样优化过程,提升低频信息质量,改善生成视频质量。
南洋理工大学S实验室的研究人员开源了一种创新性文生视频模型,名为FreeInit。他们发现视频扩散模型在生成视频时存在时间一致性不足和不自然的动态效果。

开源地址:https://github.com/tianxingwu/freeinit
论文地址:https://arxiv.org/abs/2312.07537v1
为了解决这个问题,他们提出了一种通过重新初始化噪声的方法来改善时间一致性。他们发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除,这可能是导致生成视频效果不佳的原因之一。为了验证FreeInit的有效性,研究人员进行了大量实验,结果显示FreeInit可以显著提高模型的时间一致性指标。
具体来说,FreeInit的采样优化过程包括多个步骤:
推理的第一步,FreeInit先初始化独立高斯噪声,然后通过离散采样策略采样生成初步的视频潜码。
利用扩散模型的去噪功能,从完全随机的噪声中采样出较为清晰的视频潜码。
获取上一步生成视频潜码的带有时间相关性的噪声版本,将生成的视频潜码通过原始的高斯噪声进行正向扩散过程,使其重新含有低频时间相关信息。
将含低频相关性噪声与新的高斯噪声高频部分结合,得到重新初始化的噪声,并为下一轮采样的初始提供输入。
通过多次重复迭代,FreeInit可以进一步累积提升低频信息质量,逐步弥合训练和推理的初始化差距,从而改善生成视频的质量和时间一致性。研究人员表示,FreeInit在多个文到视频生成模型上进行的实验中取得了较好的效果。他们开源了FreeInit的代码和论文,供研究者们参考和使用。
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还有各大厂商一直在卷的超长上下文。从一开始的几K几十K,发展到了如今的百万token级别。Gemini的最新版本可以接收200万个token作为上下文。站长网2024-07-24 01:35:270000Edge浏览器睡眠标签页立功:一年节省7万亿MB流量
适逢年底,各种年度盘点纷至沓来,微软Edge浏览器也列举了一组相当辉煌的数据。首先是安全方面,按照微软的统计,2024年,Edge浏览器基于内置的安全功能,帮助用户阻止了超过14亿次网络钓鱼、恶意软件和诈骗攻击。Edge移动版更是立下大功,帮助用户阻止了超过1.8万亿次攻击。Edge还通过密码监视器功能,每个月帮助用户保护超过73亿个密码。站长网2024-12-28 11:02:090000大众、奥迪、保时捷将采用特斯拉电动汽车充电插头
#划重点1.🚗大众集团旗下的品牌,包括奥迪、保时捷等,宣布将在未来电动车型中采用特斯拉的北美充电标准。2.🔄大众表示将研发适配器,以便现有电动车车主能够使用特斯拉的超级充电站,并计划在2025年推出。3.⚡️这一决定使得大众成为最新一家加入特斯拉充电标准的主要汽车制造商,唯一尚未加入的是Stellantis。0000AI日报:生图只需8步!字节开源FLUX Lora;iPhone16发布会AI是重点;华为启动AI百校计划
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动开源FLUXDev的HyperSDLora站长网2024-08-28 14:17:360000来和仰望比越野!比亚迪高管李云飞回怼余承东:欢迎华为跟我们卷技术
快科技6月6日消息,近日,比亚迪品牌及公关处总经理李云飞在直播中表示,欢迎华为来卷技术。针对余承东比亚迪卷价格华为卷价值”的言论,李云飞在直播中表示,只要有一个好的技术,通过一个好的产品,还有一个好的价格,消费者就是最大的受益方。技术好,产品好,价格又好,消费者是最开心的,这才叫好价值。站长网2024-06-06 20:46:110000