MotionDirector:AI定制视频新方法
要点:
1. 该研究提出了MotionDirector,一种基于人工智能的方法,用于自定义视频的运动和外观,通过训练模型学习运动和外观,以生成特定运动的视频。
2. MotionDirector采用双通道架构,分别学习单一或多个参考视频中的外观和运动,实现外观和运动的解耦,并能够合并不同源视频的外观和运动。
3. 该研究通过对多个基准数据进行比较,表明MotionDirector在生成具有多样性和所需运动概念的视频方面具有潜力,尽管有一些改进的空间。
最新研究指出,文本到视频传播模型在最近取得了显著进展,用户只需提供文本描述,就可以创建逼真或富有想象力的视频。这些基础模型还被调整以生成与特定外观、风格和主题匹配的图像。
然而,在文本到视频生成中自定义运动的领域仍需要深入探讨。用户可能希望创建具有特定运动的视频,比如汽车前进然后左转。因此,将扩散模型调整以创建更具体内容以满足用户的需求变得非常重要。

项目地址:https://showlab.github.io/MotionDirector/
为了解决这一问题,研究人员提出了MotionDirector,这是一种双通道架构的人工智能方法,旨在训练模型学习给定单个或多个参考视频中的外观和运动,使其能够同时实现运动的自定义和外观的多样性。
其中,空间通道包含了一个基础模型,其在每个视频的变换层中集成了可训练的空间LoRAs(低秩适应),这些LoRAs是通过在每个训练步骤中随机选择的单帧来进行训练,以捕捉输入视频的视觉属性。与此相反,时间通道复制了基础模型,与空间通道共享空间LoRAs,以适应给定输入视频的外观。此外,时间通道中的时间变换器还使用从输入视频中选择的多帧进行训练,以捕捉固有的运动模式。
通过部署经过训练的时间LoRAs,基础模型可以合成具有多样外观的学习运动的视频。这种双通道架构使模型能够分别学习视频中物体的外观和运动,从而使MotionDirector能够隔离视频的外观和运动,然后从不同的源视频中进行组合。
研究人员通过在多个基准数据上比较MotionDirector的性能,包括80多种不同的运动和600个文本提示。在UCF体育动作基准测试中,MotionDirector被人工评定者约75%的时间选择,以获得更好的运动保真度,该方法还胜过了25%的基准模型的首选项。
在第二个基准测试中,即LOVEU-TGVE-2023基准测试中,MotionDirector表现优于其他可控生成和调整方法。这些结果表明,MotionDirector可以定制多个基础模型,以生成具有多样性和所需运动概念的视频。
总之,MotionDirector是一种有潜力的新方法,可用于调整文本到视频传播模型,以生成具有特定运动的视频。它在学习和适应物体和摄像机的特定运动方面表现出色,并可以用于生成具有各种视觉风格的视频。
尽管在学习参考视频中多个主体的运动方面仍有改进空间,但即便存在这些限制,MotionDirector仍有潜力增强视频生成的灵活性,使用户能够制作符合其需求的定制视频。
Spotify 扩展与谷歌云的人工智能合作,驱动个性化播客和有声读物推荐
站长之家(ChinaZ.com)11月17日消息:音频流媒体平台Spotify已宣布扩大与Google的合作,以加强其人工智能(AI)服务。自2016年以来,Spotify一直与GoogleCloud合作,现在将使用这家科技巨头的AI工具来改进其平台的某些部分。站长网2023-11-17 11:22:150000图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象
【新智元导读】这几天的维也纳,上演了一场AI圈的狂欢。在ICLR2024上,图灵巨头LeCun、Bengio纷纷现身,直接让现场挤爆,变成追星现场。这几天,AI届的盛会——ICLR在维也纳举办。OpenAI、Meta、谷歌、智谱AI等世界前沿AI科技企业齐聚一堂。现场名流云集,星光耀眼,走几步就能偶遇一位发过颠覆性paper的大咖。站长网2024-05-11 20:31:350000生成式 AI 时代,手机正在进行一次全栈革新?
手机行业的第三次重大变革开始了。最近一段时间,AI与大模型技术突飞猛进。春节刚过,前沿方向上就迎来了新一轮突破。OpenAI的Sora一下子把AI视频生成的进度条拉快了半年。在大模型的应用领域,技术落地应用的速度也在加快。目前各家大厂的新一代旗舰手机已经悉数登场,它们绝大多数都搭载了大模型,能实现很多前所未有的功能。站长网2024-03-05 18:43:320000电子烟交易管理细则发布:企业可自定内销电子烟出厂和零售价
国家烟草专卖局近日宣布,将对电子烟交易管理细则进行修订,并印发相关通知。根据通知,国务院烟草专卖行政主管部门将建立一个全国统一的电子烟交易管理平台,以规范电子烟市场的交易行为。站长网2024-09-04 20:34:160000全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
【新智元导读】最大开源模型,再次刷爆纪录!Snowflake的Arctic,以128位专家和4800亿参数,成为迄今最大的开源模型。它的特点,是又大又稀疏,因此计算资源只用了不到Llama38B的一半,就达到了相同的性能指标。就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。站长网2024-04-26 04:35:300001