MotionDirector:AI定制视频新方法
要点:
1. 该研究提出了MotionDirector,一种基于人工智能的方法,用于自定义视频的运动和外观,通过训练模型学习运动和外观,以生成特定运动的视频。
2. MotionDirector采用双通道架构,分别学习单一或多个参考视频中的外观和运动,实现外观和运动的解耦,并能够合并不同源视频的外观和运动。
3. 该研究通过对多个基准数据进行比较,表明MotionDirector在生成具有多样性和所需运动概念的视频方面具有潜力,尽管有一些改进的空间。
最新研究指出,文本到视频传播模型在最近取得了显著进展,用户只需提供文本描述,就可以创建逼真或富有想象力的视频。这些基础模型还被调整以生成与特定外观、风格和主题匹配的图像。
然而,在文本到视频生成中自定义运动的领域仍需要深入探讨。用户可能希望创建具有特定运动的视频,比如汽车前进然后左转。因此,将扩散模型调整以创建更具体内容以满足用户的需求变得非常重要。
项目地址:https://showlab.github.io/MotionDirector/
为了解决这一问题,研究人员提出了MotionDirector,这是一种双通道架构的人工智能方法,旨在训练模型学习给定单个或多个参考视频中的外观和运动,使其能够同时实现运动的自定义和外观的多样性。
其中,空间通道包含了一个基础模型,其在每个视频的变换层中集成了可训练的空间LoRAs(低秩适应),这些LoRAs是通过在每个训练步骤中随机选择的单帧来进行训练,以捕捉输入视频的视觉属性。与此相反,时间通道复制了基础模型,与空间通道共享空间LoRAs,以适应给定输入视频的外观。此外,时间通道中的时间变换器还使用从输入视频中选择的多帧进行训练,以捕捉固有的运动模式。
通过部署经过训练的时间LoRAs,基础模型可以合成具有多样外观的学习运动的视频。这种双通道架构使模型能够分别学习视频中物体的外观和运动,从而使MotionDirector能够隔离视频的外观和运动,然后从不同的源视频中进行组合。
研究人员通过在多个基准数据上比较MotionDirector的性能,包括80多种不同的运动和600个文本提示。在UCF体育动作基准测试中,MotionDirector被人工评定者约75%的时间选择,以获得更好的运动保真度,该方法还胜过了25%的基准模型的首选项。
在第二个基准测试中,即LOVEU-TGVE-2023基准测试中,MotionDirector表现优于其他可控生成和调整方法。这些结果表明,MotionDirector可以定制多个基础模型,以生成具有多样性和所需运动概念的视频。
总之,MotionDirector是一种有潜力的新方法,可用于调整文本到视频传播模型,以生成具有特定运动的视频。它在学习和适应物体和摄像机的特定运动方面表现出色,并可以用于生成具有各种视觉风格的视频。
尽管在学习参考视频中多个主体的运动方面仍有改进空间,但即便存在这些限制,MotionDirector仍有潜力增强视频生成的灵活性,使用户能够制作符合其需求的定制视频。
小米一季度出货量大涨33%:稳坐全球第三 无限逼近苹果
快科技4月30日消息,分析机构Canalys今天发布了2024年第一季度全球智能手机市场数据。该季度全球智能手机市场同比增长10%,达到2.962亿部,市场表现高于预期,这意味着手机行业的最低谷已经度过。三星在A系列和新款高端旗舰GalaxyS24系列的推动下实现遥遥领先,出货量达6000万部,出货量第一。苹果在华为等挑战下,出货量下滑16%,降至4870万部,位居第二,市场份额16%。站长网2024-05-01 15:06:490000天玑9300将于10月登场:首次全大核架构 性能狙击苹果A17
快科技8月12日消息,今天博主数码闲聊站透露,联发科新一代旗舰芯片天玑9300暂定于10月份登场。按照惯例,最早11月份就会有对应的旗舰手机登场,爆料称vivoX100系列极大可能拿下全球首发。目前业内对于天玑9300期待很大,因为这是第一次8核CPU将全大核架构设计,采用4*Cortex-X44*Cortex-A720的组合,取消了凑数小核心。站长网2023-08-12 15:48:580000英伟达、苹果和微软们一夜跌去6千亿美元!华尔街“厌倦”硅谷了
大跌。大跌。还是Mag7的大跌。8月5日,美股在周一的交易日迎来“黑色星期一”。其中,科技巨头们集体暴跌。被称为Mag7“七姐妹”的英伟达,苹果,微软,谷歌,亚马逊,特斯拉和Meta,一夜就一起抹去了六千亿美元的市值。站长网2024-08-06 14:34:460000阿里妈妈上线“AI全域上架”能力,内容生产效率翻5倍,商家点击率高达97%
9月6日,阿里妈妈m峰会发布“淘系三中心增量”,其中,店铺中心是“人、货”长效运营的主阵地,内容中心则是品牌新客“即种快收”增量场。站长网2023-09-21 16:21:230000苹果正式发布WWDC23预告 暗示混合现实头显发布
今日,苹果通过邮件向开发者宣布2023年全球开发者大会(WWDC23)即将召开。此次iPhone和iPad端口的活动页面中出现了“可佩戴AR设备浏览”的提示,同时还有部分用户注意到页面中隐藏着VR“彩蛋”。站长网2023-05-31 10:14:270000