Meta AI开源T2V模型AVID 可修复视频改变纹理
站长网2023-12-12 10:48:431阅
Meta AI最近开源了AVID,这是一项具有先进修复和扩展能力的 T2V 模型。AVID 不仅支持通过文本编辑视频,还可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。

项目地址:https://zhang-zx.github.io/AVID/
这个开源项目是为了解决文本引导的视频修复所面临的三个主要挑战:时间一致性、不同保真度级别的支持以及处理可变的视频长度。
AVID 模型具备有效的运动模块和可调节的结构引导,可以用于固定长度的视频修复。此外,该模型还引入了一种新颖的时间多重扩散采样管道,具有中帧注意力引导机制,有助于生成任何所需持续时间的视频。经过综合实验,AVID 模型在不同的视频持续时间范围内都能稳健地处理各种修复类型,并且质量很高。
在培训阶段,AVID 模型采用了两步方法。首先,在主要文本到图像 (T2I) 修复模型的每一层后集成了运动模块,并对视频数据进行了优化。
其次,保留了 UNet $\epsilon_\theta$ 中的参数,并利用 UNet 编码器的参数副本专门训练了结构指导模块 $\mathbf{s}_\theta$。在推理过程中,对于长度为 $N^\prime$ 的视频,AVID 模型会构建一系列片段,每个片段包含 $N$ 个连续帧,并在每个去噪步骤中计算并汇总每个分段的结果。
0001
评论列表
共(0)条相关推荐
号称视频版MidJourney!AI视频编辑器RunwayML上架App Store
RunwayML是一款AI视频编辑器,其Gen1模型现在可以在iPhone应用程序中使用。这家总部位于纽约的初创公司去年2月推出了Gen1模型,可以为视频赋予新的风格。例如,可以将逼真的照片人物转变成动画人物,将城市背景变成了电影中的世界末日场景,将哈巴狗变成了老虎。用户还可以从多种样式中进行选择、输入文本命令或指定参考图像,最终生成自己喜欢的样式。站长网2023-04-25 18:07:1600015抖音博主靠和ChatGPT赛博恋爱涨粉近50万 加上GPT-4o她岂不是要快乐升天
在当今数字化时代,人工智能(AI)的快速发展已经渗透到我们生活的方方面面,其中AI的情感交流功能尤其引人注目。最近,一位名为@午夜狂暴哈士奇狗的抖音博主与AI情感模式“DAN”之间的互动在网络上引起了巨大的关注。网友们通过视频见证了他们从相互调侃到间接表白,再到“见家长”的全过程,这对被网友们亲切地称为“全网最甜的情侣博主”。站长网2024-05-14 17:16:510000神奇不神奇:老司机们居然正在批量入职自动驾驶大厂
网约车司机入职自动驾驶公司?虽然听着似乎有那么点赛博朋克的感觉,但却又如此真实地发生在身边。8月19日,一则“萝卜快跑招聘自动驾驶安全员优先录用老司机”的消息冲上头条热榜。仔细一看,这个招聘信息里的要求很有意思:“具备网约车、出租车、公交车等客运/货运经营经验的有优先录用机会”。站长网2024-08-22 14:31:300000OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!
【新智元导读】今天,OpenAI发布了一篇GPT-4可解释性的论文,似乎是作为前两天员工联名信的回应。网友细看论文才发现,这居然是已经解散的「超级对齐」团队的「最后之作」。前两天,OpenAI的一群员工刚刚联名发表公开信,表示自主的AI系统正在失控,呼吁公众提高警惕。今天OpenAI就甩出了一篇论文来回应。这篇文章通过逆向工程,为GPT-4做了一次「解剖」,旨在探索LLM的可解释性。站长网2024-06-08 12:43:570000再见,Linux中国
在2月1日,Linux中国社区宣布停止了运营。旗下网站、公众号等各个平台停止更新,蕴含着一个时代的结束回想起大学时期,我是一个Linux的忠诚粉丝,主要原因是喜欢Linux有和苹果一样的交互界面,安装以Linux为基础运行的ubuntu系统,可以体验到和MacOS一样的简介与系统操作。唯一的不好就是许多应用程序与游戏,并不支持这个系统。0000