研究人员推视频运动控制器MotionCtrl 可有效独立控制摄像机和物体的运动
要点:
MotionCtrl是一种用于视频生成的统一而灵活的运动控制器,能够有效地独立控制摄像机运动和物体运动,实现更精细和多样化的运动控制。
MotionCtrl通过两个模块,即摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略。
通过CMCM和OMCM的独立训练和结合LVDM,MotionCtrl能够在相对有限的数据集上进行训练,并在生成视频时灵活地控制摄像机和物体的运动,展示出较之前方法更为出色的性能。
近年来,视频生成领域取得了显著进展,但对于视频中的摄像机和物体运动的准确控制仍然是一个挑战。传统方法往往集中在其中一种运动类型,或者在两者之间没有明确的区分,从而限制了运动控制的多样性。为了解决这一问题,研究人员开发了一种名为MotionCtrl的技术,可以通过手绘的轨迹来控制摄像机和视频中物体的运动轨迹。该技术还支持Animatediff,希望在开源后能够有相应的节点插件。
MotionCtrl能够独立有效地控制摄像机运动和物体运动,实现更精细和多样化的运动控制。其架构考虑了摄像机运动和物体运动的固有属性,通过CMCM和OMCM模块分别处理这两种运动类型。这使得在生成的视频中可以实现更细致的运动调整,并灵活地组合这两种运动类型,提高了控制的多样性。
论文地址:https://arxiv.org/pdf/2312.03641.pdf
MotionCtrl的运动条件由摄像机姿态和轨迹决定,这些条件与外观无关,最小程度地影响生成视频中物体的外观或形状。这使得MotionCtrl生成的视频在保持物体自然外观的同时,能够准确地反映所给摄像机姿态和轨迹,提高了生成视频的真实感。
MotionCtrl是相对通用的模型,一旦训练完成,能够适应各种摄像机姿态和轨迹,无需对每个摄像机或物体运动进行精细调整。这增强了模型的泛化能力,使其在不同情境下都能表现出色。
该项目的优势在于,它可以有效地独立控制摄像机和物体的运动,实现更精细的运动控制,促进两种类型运动的灵活多样组合。此外,该技术的运动条件由摄像机的姿势和轨迹确定,与视频中物体的外观或形状影响最小。
MotionCtrl的实现方法是通过添加相机运动控制模块(CMCM)和物体运动控制模块(OMCM)来扩展LVDM的去噪U-Net结构。CMCM通过将相机姿态序列RT附加到第二个自注意模块的输入中,并应用一个定制的轻量级全连接层来提取相机姿态特征,将其与LVDM的时间变换器进行集成。
为了训练MotionCtrl,研究人员采用了一种多阶段的训练策略,并使用特定的增强数据集,以满足摄像机运动和物体运动控制的训练需求。对于摄像机运动控制模块(CMCM),研究人员选择了Realestate10K数据集,并通过Blip2生成视频片段的文字描述。对于物体运动控制模块(OMCM),由于缺乏同时包含摄像机姿态、文字描述和物体运动轨迹的综合数据集,研究人员采用了ParticleSfM来生成物体运动轨迹,并通过Gaussian filter进行优化。
实验结果表明,MotionCtrl相对于现有方法在运动控制方面表现出色,具有更高的生成视频质量和更灵活的运动控制能力。
微信朋友圈全幅式广告轻互动组件能力升级 新增4种全屏动效
朋友圈全幅式广告轻互动组件能力升级,主要是为了提升广告展示效果和投放效率。具体升级包括动效的增加、组件的优化和转化效果的提升。动效方面,新增了4种全屏动效,包括文字转盘、中心交错、向上堆积和向下堆积,加上原有的上浮、下落、水平和旋转动效,总共有8种类型供广告主选择。文字动效支持自定义文案,可以更灵活地传递品牌信息。站长网2023-12-08 08:56:130000AutoLLM:在几秒钟内创建基于 RAG 的 LLM Web 应用程序!
AutoLLM是一个强大的工具,能够让您在几秒钟内部署基于Retrieval-AugmentedGeneration(RAG)的大型语言模型(LLM)Web应用。它为开发人员提供了一种简化、统一和增强LLM应用程序的方式,具备多项核心功能,包括支持100多种LLM模型、统一API、20多种向量数据库、成本计算、以及一键将LLM引擎转换为FastAPI应用的能力。站长网2023-11-03 10:58:350002华为Mate 70系列预计第四季度发布 首发纯血鸿蒙正式版
站长之家(ChinaZ.com)6月21日消息:今日下午,余承东正式宣布鸿蒙NEXT开发者Beta版正式开放升级,并透露消费者Beta版将于8月全面推送。更令人期待的是,在即将到来的第四季度,华为Mate70系列将携手鸿蒙NEXT正式版系统闪亮登场。站长网2024-06-22 23:42:150000微博AI评论机器人“评论罗伯特”宣布支持楼中楼回复
今日,微博AI机器人“评论罗伯特”在微博宣布,已支持楼中楼回复,不过该功能目前还在测试中。据悉,“评论罗伯特”原名“评论哇噻机器人”,是以微博用户身份活跃在网友评论区的智能机器人。目前,在微博发布原创内容或者艾特此号,将有可能收到它的回复。站长网2024-03-14 16:08:220000陈香贵开始猛扑抖音同城
抖音同城在今年已经成为餐饮界热议的话题。而去年抖音的同城生活部门还在小步摸索,今年就异军突起,甚至打破了传统同城“人货场”模式,开创了一条全新的内容型同城电商新赛道。背后的逻辑是,传统本地生活电商平台,如阿里、美团和大众点评,流量主要局限在周围3公里范围内。抖音则利用内容的先天优势,将广告型内容巧妙融入用户时间,通过创意而有趣的内容激发用户兴趣,再通过优惠券进行转化交易。站长网2023-08-26 17:25:460000