Meta AI开源T2V模型AVID 可修复视频改变纹理
站长网2023-12-12 10:48:431阅
Meta AI最近开源了AVID,这是一项具有先进修复和扩展能力的 T2V 模型。AVID 不仅支持通过文本编辑视频,还可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。

项目地址:https://zhang-zx.github.io/AVID/
这个开源项目是为了解决文本引导的视频修复所面临的三个主要挑战:时间一致性、不同保真度级别的支持以及处理可变的视频长度。
AVID 模型具备有效的运动模块和可调节的结构引导,可以用于固定长度的视频修复。此外,该模型还引入了一种新颖的时间多重扩散采样管道,具有中帧注意力引导机制,有助于生成任何所需持续时间的视频。经过综合实验,AVID 模型在不同的视频持续时间范围内都能稳健地处理各种修复类型,并且质量很高。
在培训阶段,AVID 模型采用了两步方法。首先,在主要文本到图像 (T2I) 修复模型的每一层后集成了运动模块,并对视频数据进行了优化。
其次,保留了 UNet $\epsilon_\theta$ 中的参数,并利用 UNet 编码器的参数副本专门训练了结构指导模块 $\mathbf{s}_\theta$。在推理过程中,对于长度为 $N^\prime$ 的视频,AVID 模型会构建一系列片段,每个片段包含 $N$ 个连续帧,并在每个去噪步骤中计算并汇总每个分段的结果。
0001
评论列表
共(0)条相关推荐
苹果打算自研搜索引擎:谷歌前高层领导开发 代号“飞马”
快科技10月3日消息,彭博社的MarkGurman最近透露,苹果正在努力开发名为代号Pegasus飞马”的搜索引擎。苹果开发飞马”并不是为了直接与谷歌竞争,而是为了将其深入集成到iOS和macOS中,甚至会使用生成AI工具来进行增强,同时也可以为用户带来隐私保护的搜索体验。站长网2023-10-04 08:58:020000通义千问上线AI生成拜年视频功能 提供300套照片模板
阿里云通义千问APP推出多项免费新应用,引入全新图像生成玩法,包括全家福、拜新年、万物成龙等。这次更新涵盖了超过300套照片模板,用户只需上传照片即可生成多样化的主题照片,如全家福、团圆照、拜年照和千里江山等。产品入口:https://top.aibase.com/tool/tongyiqianwen站长网2024-02-05 15:28:580000马斯克禁止第三方抓取X数据训练AI模型
最近,X公司(推特)更新了其服务条款,明确规定从9月29日起,任何第三方未经书面许可不得在X平台上获取数据用于训练AI模型。站长网2023-09-12 14:14:470001Open-Sora 1.1发布 视频质量提升,生成时长延长至21秒
Open-Sora1.1发布,带来了显著的提升,尤其是在视频生成的质量和时长方面。新版本模型能够生成最长约为21秒的视频,使用更高质量的视觉数据和字幕进行训练,从而使其更好地理解世界的运作。此外,优化后的CausalVideoVAE架构提高了性能和推理效率。主要更新和特点:视频生成质量和时长提升:新版本在视频生成的质量和时长方面都有显著提升,现在能够生成最长约为21秒的视频。站长网2024-05-28 19:35:420001微软将 Linux 的 sudo 命令引入 Windows11
Windows11很快就会有一个专为开发人员设计的内置sudo命令。Sudo是“超级用户do”的缩写,广泛用于Linux和macOS等基于Unix的操作系统,用于以更高的安全权限运行程序或作为其他用户运行程序。例如,它对于想要测试脚本的开发人员很有用。站长网2024-02-09 13:28:400000