研究人员推视频运动控制器MotionCtrl 可有效独立控制摄像机和物体的运动
要点:
MotionCtrl是一种用于视频生成的统一而灵活的运动控制器,能够有效地独立控制摄像机运动和物体运动,实现更精细和多样化的运动控制。
MotionCtrl通过两个模块,即摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略。
通过CMCM和OMCM的独立训练和结合LVDM,MotionCtrl能够在相对有限的数据集上进行训练,并在生成视频时灵活地控制摄像机和物体的运动,展示出较之前方法更为出色的性能。
近年来,视频生成领域取得了显著进展,但对于视频中的摄像机和物体运动的准确控制仍然是一个挑战。传统方法往往集中在其中一种运动类型,或者在两者之间没有明确的区分,从而限制了运动控制的多样性。为了解决这一问题,研究人员开发了一种名为MotionCtrl的技术,可以通过手绘的轨迹来控制摄像机和视频中物体的运动轨迹。该技术还支持Animatediff,希望在开源后能够有相应的节点插件。
MotionCtrl能够独立有效地控制摄像机运动和物体运动,实现更精细和多样化的运动控制。其架构考虑了摄像机运动和物体运动的固有属性,通过CMCM和OMCM模块分别处理这两种运动类型。这使得在生成的视频中可以实现更细致的运动调整,并灵活地组合这两种运动类型,提高了控制的多样性。
论文地址:https://arxiv.org/pdf/2312.03641.pdf
MotionCtrl的运动条件由摄像机姿态和轨迹决定,这些条件与外观无关,最小程度地影响生成视频中物体的外观或形状。这使得MotionCtrl生成的视频在保持物体自然外观的同时,能够准确地反映所给摄像机姿态和轨迹,提高了生成视频的真实感。
MotionCtrl是相对通用的模型,一旦训练完成,能够适应各种摄像机姿态和轨迹,无需对每个摄像机或物体运动进行精细调整。这增强了模型的泛化能力,使其在不同情境下都能表现出色。
该项目的优势在于,它可以有效地独立控制摄像机和物体的运动,实现更精细的运动控制,促进两种类型运动的灵活多样组合。此外,该技术的运动条件由摄像机的姿势和轨迹确定,与视频中物体的外观或形状影响最小。
MotionCtrl的实现方法是通过添加相机运动控制模块(CMCM)和物体运动控制模块(OMCM)来扩展LVDM的去噪U-Net结构。CMCM通过将相机姿态序列RT附加到第二个自注意模块的输入中,并应用一个定制的轻量级全连接层来提取相机姿态特征,将其与LVDM的时间变换器进行集成。
为了训练MotionCtrl,研究人员采用了一种多阶段的训练策略,并使用特定的增强数据集,以满足摄像机运动和物体运动控制的训练需求。对于摄像机运动控制模块(CMCM),研究人员选择了Realestate10K数据集,并通过Blip2生成视频片段的文字描述。对于物体运动控制模块(OMCM),由于缺乏同时包含摄像机姿态、文字描述和物体运动轨迹的综合数据集,研究人员采用了ParticleSfM来生成物体运动轨迹,并通过Gaussian filter进行优化。
实验结果表明,MotionCtrl相对于现有方法在运动控制方面表现出色,具有更高的生成视频质量和更灵活的运动控制能力。
百度网盘推出基于文心大模型的智能助理“云一朵”
在2023万象百度移动生态大会上,百度网盘宣布推出基于文心大模型的智能助理“云一朵”。该智能助理可以通过自然对话的方式,帮助用户在海量信息中快速查找所需信息,并直接转化为文档、摘要、翻译文件等。据悉,“云一朵”智能助理已经开启内测,并可通过百度网盘PC客户端或网页版进行预约。站长网2023-05-29 09:04:080000AI女友上架淘宝 GPT商店也被AI女友“占领”了!
和偶像进行视频通话曾经是一种遥不可及的奢望,但如今这已经变成了一项有明确价格标签的服务。最近,“小冰旗舰店”正式登陆淘宝平台。首批商品包括虚拟KOL(KeyOpinionLeader)陪伴服务以及“冰花直充”。目前,该旗舰店提供了56位虚拟KOL可供选择,其中包括知名虚拟偶像如半藏森林、夏南织等。用户一旦购买,就可以在淘宝APP中直接与这些虚拟偶像进行互动。站长网2024-01-16 15:26:470000谷歌宣布对更多用户开放搜索中对新的生成式 AI 功能的访问
在GoogleI/O之后注册SearchLabs的美国Google用户现在可以开始使用一些早期实验,包括SGE(搜索生成体验)、代码提示和添加到表格。如果你想试用这些功能,可以通过访问此网站进行注册,如果你已注册,还可以在那里查看候补名单状态。图片来自Google站长网2023-05-26 09:33:010000终于!马斯克 Neuralink 获得 FDA 批准,可首次进行人体实验
去年12月,马斯克曾放话:预计脑机接口公司Neuralink将在6个月后,进行大脑芯片的人体试验。彼时,回想起这些年来马斯克在特斯拉、SpaceX上不断“画饼”的行为,许多人对于“6个月”这个说法,不过笑笑而已——可没想到,这个Flag居然真的成了!本周五,Neuralink官方激动发推:“很高兴地告诉大家,我们已获得FDA的批准,可以启动我们的首次人体临床研究!”站长网2023-05-27 10:11:200001ChatGPT可浏览互联网 不再局限于2021年9月之前数据
OpenAI今日宣布,ChatGPT现在可以浏览互联网,提供最新、最权威的信息,并直接链接到源。它不再局限于2021年9月以前的数据。今天,联网功能可供Plus和Enterprise用户使用,将很快将向所有用户开放。如需启用,可在GPT-4下方的选择器中选择使用必应进行浏览(BrowsewithBing)。站长网2023-09-28 08:15:510000