后期狂喜!一张照片丝滑替换视频主角,动作幅度再大也OK|Meta&新加坡国立大学
后期狂喜了家人们~
现在,只需一张图片就能替换视频主角,效果还是如此的丝滑!
且看这个叫做“VideoSwap”的新视频编辑模型——
小猫一键变小狗,基操~
如果原物体本身扭动幅度大一些?也完全没问题:
细看俩者之间的运动轨迹,给你保持得是一毛一样:
再如果,替换前后的物体形状差别较大呢?
例如车身较高的SUV换更长的超跑,大邮轮换小白船。
呐,也是一整个完美替换,基本看不出任何破绽:
对比谷歌今年2月发的同类视频替换模型Dreamix:
不得不说,现在这技术进步真是肉眼可见啊~
那么,它是如何做到的呢?
方法也很有意思。
只需几个语义点,拽一拽就OK
不管是风格转换还是主题/背景转换,这种视频编辑任务的主要挑战都是如何从源视频中提取运动轨迹传输到新视频、覆盖到新元素上,同时确保时间一致性。
此前的模型(原理包括编码源运动、使用注意力图、光流等)大多数顾此失彼,要么在时间一致性上做的不好,要么会严格限制形状变化。
在此,VideoSwap提出使用少量语义点来描述物体的运动轨迹。
如下图所示,飞机的运动轨迹就可以通过机翼、机头和机尾的4个点来表示。
而在替换成直升机时,我们可以删除两个点,在只保留机头和机尾来对齐运动轨迹的同时,免除形状约束,让体型不一样的直升机得以替换。
除了删除语义点,它还能拖拽。
像开头展示的这个SUV变超跑,由于车身变长了,我们不对语义点进行处理,超跑就变形了:
对此,我们只要将SUV车头和车尾的几个点稍加挪动就OK:
下面这个天鹅的替换视频也是经过了语义点拖拽:
那么具体来说,VideoSwap是如何操作的呢?
从它的pipeline来看,简单来说,VideoSwap也是基于扩散模型(潜扩散)。
它首先用VAE编码器对源视频进行编码,获得潜空间表示;然后用DDIM反演将它变换回有噪声的表示。
接着用文本提示中的源主题(例如猫)替换目标主题(狗),并使用DDIM scheduler进行去噪。
在这个去噪过程中,就可以引入语义点对应关系来引导目标主题遵循原来的运动轨迹进行生成了。
最后,为了保留背景,作者在此还采用了一个潜混合的概念。
此外,他们还通过将视频运动层集成图像扩散模型中,来确保结果的时间一致性。
这里的关键点之一就是VideoSwap中的语义点提取和注册(register)pipeline。(“注册”是指把语义点安插到源视频)
首先它需要我们在关键帧中标出关键语义点,然后再从视频中提取所标语义点对应轨迹的embedding。
接下来在语义点匹配中,embedding由多个2层可学习MLP投射,并根据其坐标位置放置到空特征中,然后逐元素添加到扩散模型中作为运动引导。
至于用户拖动语义点后还可以让视频保持很好的一致性,这里用到的技术则是基于分层神经图谱(LNA)的点位移传播。
通过被训练过的LNA,用户拖动产生的位移就能通过它的规范空间一致地传播到每一帧之中。
最后,作者表示:基于以上这些方法,VideoSwap通过大量测试,最终取得了SOTA成绩,成为目前最好的视频变换模型。
这是它和一些主流方法的效果对比:
目标是把飞机变直升机。
可以看到,除了VideoSwap,绝大多数方法都只在机头部分往直升机的方向靠拢,不细看都发现不了,并且有的还伴随着明显的闪烁和伪影。
作者介绍
VideoSwap由新加坡国立大学和Meta合作完成。
一作Yuchao Gu为新加坡国立大学博士生,此前硕士毕业于南开大学,他的研究方向正是AIGC,尤其为视频生成为主。
他同时也是Meta GenAI方向的实习生。
通讯作者为新加坡国立大学助理教授Mike Z. Shou,他此前是Facebook AI的研究员。
参考链接:
https://arxiv.org/abs/2312.02087
https://videoswap.github.io/
—完—
Gemini将实现无缝播放YouTube Music功能
最近,GeminiAI助手宣布了一项新的功能,即将支持播放YouTubeMusic中的音乐。这一更新将极大地提升用户的体验,让音乐播放变得更加简单和流畅。站长网2024-05-10 17:23:090000西工大李学龙团队探索人工智能伦理计算 突破伦理的定量计算瓶颈
要点:1.西北工业大学李学龙团队探索人工智能伦理计算,试图建立伦理的定量计算框架,以解决技术伦理问题。2.人工智能伦理治理已引起广泛关注,但伦理的抽象性使规范难以付诸实践。3.人工智能伦理计算分为高阶伦理认知和低阶伦理认知两种范式,旨在规范机器的伦理行为。站长网2023-10-13 14:16:040000“新娱乐”内容的风向标,指向大众与多元
如今的娱乐内容消费市场正在加速升温。暑假期间,周杰伦圆梦嘉年华助力锦鲤粉丝演唱会点歌,帮千万老铁实现点歌心愿、蔡依林在快手独家直播开唱、成龙野营谈唱会唤醒一代人的青春记忆……快手娱乐率先引爆了明星直播的暑期热潮,打造出了诸多明星的“直播大事件”。此外,短剧赛道也迎来集中爆发,快手娱乐推出的星芒短剧暑期档首次将短剧以档期化的方式运营,通过不同风格、不同题材的多元化作品满足用户的追剧需求。0000CodeFuse微调框架MFTCoder升级v0.3.0版本 支持Mixtral等模型
MFTCoder是蚂蚁CodeFuse开源的一种多任务微调框架,可以在多个任务上同时进行微调。它通过结合多种损失函数解决了多任务学习中的挑战。MFTCoder具备高效训练特征,包括高效的数据Tokenization模式和支持PEFT微调,能提升微调训练速度并降低资源需求。MFTCoder在v0.3.0版本中进行了重磅升级。站长网2024-01-22 09:08:410002抖音回应放贷余额近4000亿元:信息不实
抖音发布辟谣公告:某自媒体称“抖音等字节系公司的放贷余额近4000亿”,此为不实信息。根据抖音黑板报官方辟谣公告,谣言称“抖音悄然跃入放贷第一阵营,近4000亿天量直逼蚂蚁。"抖音对此否认表示:信息不实。以下为辟谣内容:某自媒体称“抖音等字节系公司的放贷余额近4000亿”,此为不实信息。深圳市中融小额贷款有限公司2024年1月22日站长网2024-01-22 21:46:020000