图片生成精准动态视频,阿里、港大推出新模型LivePhoto
阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。
与传统方法不同的是,LivePhoto在开源文生图模型Stable Diffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。
研究人员将LivePhoto与主流模型Gen-2、Pikalabs进行了比较,经过多轮测试效果非常卓越。
论文地址:https://arxiv.org/abs/2312.02928
从论文来看,LivePhoto模型主要由三大模块组成:首先是图像内容控制模块,通过多种策略提供强大的像素级和语义级图像指导,从而确保生成序列中每一帧的视觉内容与原图保持高度一致。
其次是运动建模模块,基于知名开源模型Stable Diffusion,仅训练插入的特定组件来捕捉帧间隐含的运动模式。
第三个是额外控制指令模块,是一种运动强度估计和文本重新加权的方法,可有效减少文本到运动映射中的歧义,使得所生成的图像动画视频更好地遵循文本指令描述。
图像内容控制
为了实现生成内容与参考图像保持一致,LivePhoto使用了三种图像指导方法:1)参考潜在表示拼接通过VAE编码器提取参考图像的潜在表示,并直接拼接到模型输入中,实现像素级指导。
2)内容编码器,使用了预训练的DINOv2网络提取参考图像的图像块表示,并通过新增的交叉注意力层注入到UNet网络中,提供全局内容约束。
3)先验反向映射,在推理阶段,将参考潜在表示的反向映射混合到高斯噪声中,为细节生成提供先验知识。
此外,LivePhoto冻结了Stable Diffusion模型的部分功能,仅训练插入了其中的可学习运动模块,用来构建不同帧间的运动联系。相当于每个UNet组件中插入了一个运动模块,采用了类似AnimateDiff的结构。
额外指令
通过图像内容控制和运动模块,基本可以勾勒出大致的运动视频内容。但仍然无法精准控制运动方式,这是因为文本中同时包含内容和运动两个方面的描述,而参考图像起主导作用,容易造成内容描述对运动描述的抑制。
为解决这一问题,开发人员提出了两种额外的指令:
1)运动强度,考虑到文本指令本身很难准确表达运动特征, LivePhoto引入了一个1-10的值来参数化运动强度。这一超参数既可于训练时促进文本与运动的匹配,也为用户提供了方便的推理调节接口。
2)文本加权,为区分文本中与内容和运动相关的部分, LivePhoto设计了文本加权功能。
其目标是检测文本中与运动相关的维度,并对其进行加权放大。这可以减少内容描述带来的干扰,从而增强运动控制能力。
实验结果也证明,在运动强度指导和文本加权的帮助下,LivePhoto展现出了十分出色的零样本视频动画生成性能。
可以处理各种图像输入,同时遵循文本中对运动的描述生成视频。例如,不同的人或动物正在进行的动作,或者虚拟出文本所描写的场景。
此外,用户还可以通过简单调节运动强度的数值,自由定制视频中运动的方式。
全网都是的“避雷帖”,藏着多少坑?
“现在一看到避雷帖就恼火”。“这里避雷!那里避雷!请平台不要再给我推避雷帖了!”你在刷小红书、抖音、B站等内容平台的时候,会不会经常刷到避雷帖?被避雷帖逼疯的年轻人,可不在少数。有受不了避雷帖的用户这样总结:现在的人出去玩,玩到哪里就避雷到哪里;现在的人吃喝逛买,东西辣了要避雷、清淡了也要避雷,服务贵了避雷、便宜了也要避雷。“一点小事都要放大避雷,超出自己接受和认知范围的都是雷。”站长网2024-07-04 09:10:420001揭秘快手可灵背后的「关键7人」
国内风头最盛的AI视频团队是哪家?毫无疑问,快手可灵。发布一个月,体验用户超30万,生成700万条短视频,开放网页Web端。哪怕这样,可灵还是一号难求,想上手体验的急得嗷嗷的。而比可灵本身更神秘、更令人好奇的,是缔造出这款中国版Sora的背后团队。量子位全网搜索,根据公开资料,发现了可灵团队来自清华、中科大、港科大、浙大、港中文、上海交大、南京大学等的“关键七人”。站长网2024-07-15 09:19:440000AI日报:iOS 18.1开发者测试版上线;Vidu视频生成模型上线;Gen-3 Alpha上线图生视频
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、苹果iOS18.1开发者测试版上线站长网2024-07-30 15:05:510000特斯拉中国商城上架1TB移动固态硬盘 售价2720元
特斯拉中国官网开始售卖特斯拉移动固态硬盘,容量1TB,售价2720元。该固态硬盘采用铝制外壳设计,可承受极端驾驶室温度、车辆撞击和振动。它采用USB3.1Gen2接口,顺序读取速度达2300MB/s,顺序写入速度达1150MB/s,随机读取速度为270000Iops,随机写入速度达200000Iops。站长网2023-07-31 14:28:530000问界M9智能灯光系统公布 支持百万像素智慧投影
随着问界旗舰SUV车型M9的上市日期逐渐临近,关于这款车的更多信息逐渐揭晓。今天,AITO汽车正式发布了问界M9的智能灯光系统。站长网2023-12-21 17:11:430000