Meta AI开源T2V模型AVID 可修复视频改变纹理
站长网2023-12-12 10:48:431阅
Meta AI最近开源了AVID,这是一项具有先进修复和扩展能力的 T2V 模型。AVID 不仅支持通过文本编辑视频,还可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。
项目地址:https://zhang-zx.github.io/AVID/
这个开源项目是为了解决文本引导的视频修复所面临的三个主要挑战:时间一致性、不同保真度级别的支持以及处理可变的视频长度。
AVID 模型具备有效的运动模块和可调节的结构引导,可以用于固定长度的视频修复。此外,该模型还引入了一种新颖的时间多重扩散采样管道,具有中帧注意力引导机制,有助于生成任何所需持续时间的视频。经过综合实验,AVID 模型在不同的视频持续时间范围内都能稳健地处理各种修复类型,并且质量很高。
在培训阶段,AVID 模型采用了两步方法。首先,在主要文本到图像 (T2I) 修复模型的每一层后集成了运动模块,并对视频数据进行了优化。
其次,保留了 UNet $\epsilon_\theta$ 中的参数,并利用 UNet 编码器的参数副本专门训练了结构指导模块 $\mathbf{s}_\theta$。在推理过程中,对于长度为 $N^\prime$ 的视频,AVID 模型会构建一系列片段,每个片段包含 $N$ 个连续帧,并在每个去噪步骤中计算并汇总每个分段的结果。
0001
评论列表
共(0)条相关推荐
库克谈为何每年推出新iPhone:每年换机是很酷的事
近日,苹果公司首席执行官蒂姆库克在接受海外杂志采访时谈到了公司未来的规划。当被问到为什么苹果每年都要发布一款新的iPhone,而新iPhone几乎没有太大升级,这与苹果一直倡导的环保观念不符时,库克表示:“我认为对于那些想要(新手机)的人来说,每年都能买到一款iPhone是一件很酷的事情。”站长网2023-10-10 09:35:210000谷歌、CMU研究表明:语言模型通过使用良好的视觉tokenizer首次击败了扩散模型
要点:1.研究表明,在图像和视频生成领域,语言模型通过使用良好的视觉tokenizer首次击败了扩散模型,强调了tokenizer的重要性。2.传统大型语言模型(LLM)在图像生成方面一直落后于扩散模型,主要原因是缺乏有效的视觉表示。站长网2023-10-11 17:56:520000TESTA:加速理解长视频的新方法
TESTA是一种旨在通过组合相似帧和补丁来加速理解长视频的方法。这种方法的引入成功地降低了计算负荷,并提高了匹配段落到视频以及回答关于长视频的问题的性能。站长网2023-11-02 12:07:040000个人AI时代正式到来!联想发布两款AI PC:不再只是一个硬件
快科技12月15日消息,在2023英特尔新品发布会暨AI技术创新派对上,联想正式发布了两款AIPC。它们分别是:联想ThinkPadX1CarbonAI、联想小新Pro16AI酷睿版,现已正式上市,预约预售同步开启。据了解,这两款产品具备内嵌混合AI算力、创新/增强AI体验和设备体验升级三大特点,意味着联想集团AIPC正式迈入AIReady阶段。0000互联网大厂春节都放几天假:有的连放14天
快科技1月31日消息,据国内媒体报道,互联网各大厂的春节安排已陆续公布。据悉,今年春节的法定日期为:2月10日-17日,2月9日除夕不放假,但政府鼓励各单位可实行带薪年休假等制度。互联网各大厂春节假期中,不乏有连放14天的公司;也有除夕当天调休,用周末假期或年假抵扣的;甚至还有除夕强制调休,还扣双倍工资的。0000