拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳
随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。
现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。
基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。
论文地址:https://arxiv.org/abs/2308.08089
以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:
还可以「变换」静态景物图像的相机位置和角度:
方法简介
该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图1所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。
DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。
为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:
使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;
使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹;
采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。
实验及结果
该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。
与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。
如下图4所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。
为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图5所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。
此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图6通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。
花旗高管表示:生成式AI在银行业具有变革性,但在客户支持方面存在风险
**划重点:**1.💼花旗银行的首席分析技术与创新负责人表示,生成式人工智能在数据驱动决策方面产生积极转变,但由于风险仍然较高,银行暂时决定不推出外部聊天机器人。2.🔄花旗银行通过三个主要方向运用生成式人工智能,包括协助客服代理、自动化手动任务以及内部搜索引擎的创新。3.🔍花旗银行内设的任务组对所有生成式人工智能项目进行审查,并确保负责任地执行。站长网2024-03-07 15:18:410001公众号广告大变天,创作者该何去何从?
微信还是对公众号广告收口了。5月24日晚,微信公众平台发布公告称,自2023年6月30日起,公众号运营者与第三方商业合作形式推销商品或服务,如附加购物链接等购买方式,应通过腾讯官方广告平台进行发布。若未通过腾讯官方广告平台发布,平台将依照运营规则对相关内容和帐号进行限制。也就是说,2023年6月30日后,公众号接商单必须走腾讯官方广告平台。事实上,其他主流内容平台早就在这么做了。站长网2023-05-26 15:22:4300022024春节档:没有大片,只有悬念
“破1亿,创近三年春节档新片预售票房最快破亿速度”。这是预售第一天开启后,灯塔数据发布的2024春节档战报。随着龙年除夕进入倒计时,电影春节档的战争也拉开帷幕,刘德华、张艺谋陆续走进“与辉同行”直播间,开始直播买票。成绩也还不错,由刘德华主演的《红毯先生》一小时卖出了60万张票。张艺谋执导的《第二十条》开播20分钟后24万张电影优惠劵直接抢空,一场下来总计卖出82万张。0001阿里集团CEO吴泳铭兼任淘天集团CEO
阿里巴巴宣布,阿里巴巴集团CEO吴泳铭将兼任淘天集团CEO,同时担任阿里巴巴集团、淘天集团和阿里云智能集团的CEO职务。此举是为了推动集团的核心电商业务相关板块的战略协同和资源投入。阿里巴巴集团董事会主席蔡崇信在全员信中表示,阿里巴巴需要面对新时代的变革,并相信经历这轮变革后的阿里巴巴将完成蜕变。淘天集团原CEO戴珊将协助筹建阿里巴巴集团资产管理公司。以下为全员信全文:0000Midjourney创始人:版权问题暂时无解,AI生图不是要取代艺术家
要点:1、Midjourney创始人强调AI生图并非要取代艺术家,而是希望拓展人类的想象力。2、Midjourney平台能够帮助用户快速产生创意,提供概念设计的支持。3、AI技术的发展对艺术家未来的影响仍有待观察,但更高质量、创意和多样性的内容将受到青睐。站长网2024-02-20 14:38:530002