AI为涂鸦注入生命:一句话让涂鸦变动画!人人都是“神笔马良”
你有没有想过,自己随手画的火柴人能栩栩如生地跳舞,像被赋予了“生命”一般?
现在,只需要简短的一句文本提示,LiveSketch就能让寥寥几笔涂鸦成真,输出生动活泼的的SVG动画片段,而且易于编辑和调整,可以通过文本控制动画的动作和幅度。
人人都是“神笔马良”的时代到了!
来看看Demo效果:
LiveSketch上周发布之后,腾讯AI实验室直接反其道而行之,推出Sketch Video Synthesis,主要功能是将视频中的主体转换为草图线稿风格的动画🥲,并且可以调整大小、填充颜色,还允许用户进行再编辑创作,比如叠加其他图像和涂鸦。
Live Sketch这类技术的背后原理是什么?与当下最流行的图像到视频的扩散模型Runway Gen-2有何不同?应用前景怎么样?“头号AI玩家”进行了一番探究。
一句话让涂鸦变动画,怎么做到的?明明是随意的涂画,AI竟然能准确分辨出人和动物的胳膊和腿,还能有节奏地活动,这些涂鸦是怎么“活”过来的🤔?概括来说,有两个核心逻辑:一是文本驱动视频生成。这依赖大型预训练的文本到视频模型的运动知识,比如哺乳动物和人类应该在地上行走和跑,鸟应该扇动翅膀飞,鱼应该在水里摆尾游动,各得其所。二是提升动作流畅性。为确保动作的自然流畅并保持涂鸦的原本质感,需要从两方面入手:精细的局部形变、涂鸦整体的仿射变形,以此来模拟和学习动作的细节。具体的工作原理,涵盖了以下几个精细化的步骤:1. 草图解析这一步可以理解为给涂鸦加上骨架和关节。每张涂鸦都会被解析成置于白色背景上的一组笔画,每条笔画由一个二维贝塞尔曲线(蓝色)组成,该曲线又由4个控制点(红色)定义。
这样就能够通过预测每一帧每个点的偏移量(绿色),使草图变形,以创建动态效果。即便线条非常潦草抽象,也依然能够准确识别并预测其运动轨迹。
从左到右线条越来越抽象
2. 动态预测那么系统是如何实现动态预测的呢?换句话说,骨架和关节有了,怎么才能让机器看懂并且控制涂鸦做出正确动作呢?这就需要利用嵌入在预训练的文生成视频模型中的动作知识,训练一个多层感知机(Multilayer Perceptron, MLP),又名“神经位移场”,通过调整草图控制点的位移来构建视频的所有帧,并对帧进行渲染。
而草图控制点的位移,会被分至两条路径处理——局部路径和全局路径。局部路径关注草图的细节和微调,通过多层感知机(MLP)预测每个控制点的位移。全局路径处理整体的运动和变化,如旋转、缩放或平移,通过预测全局变换矩阵实现,应用于所有控制点。这使得模型既能够专注于小的局部变化(如弯曲手臂),同时又能够创建大的全局运动或同步效果,例如当物体远离相机时缩小物体。3. 动画合成与输出结合两条路径的处理结果,加上用户的文本输入,系统会生成一连串代表草图变化的帧,形成平滑的动画序列,展示从初始至终态的过渡,最终输出为一段动画。从生成结果来看,如果在提示词中添加“A sketch of”(…的草图),或者“Abstract sketch / Line Drawing”(抽象素描/线条画),动态效果很可能会更好。
和Runway Gen-2比,怎么样?
同样是让图像动起来,LiveSketch的表现与市面上的其他视频生成模型有什么不同?
针对这个问题,LiveSketch团队与4种图像到视频扩散模型,包括Runway的Gen-2、ZeroScope、ModelScope、VideoCrafter1,以及一种为动画儿童人物画而定制的方法进行了比较。
可以看到,同一张静态素描画,不同模型或方法生成的视频效果大相径庭,但有一个共同点是都逊于LiveSketch,就连大名鼎鼎的Gen-2也败下阵来。
以跳舞的芭蕾舞者为例,Gen-2生成的视频出现了明显的风格和动作脱节,上一秒还是素描简笔画,下一秒就直接变成了写实的人体,且动作毫无连贯性可言。其他几种方法生成的视频效果更是抽象🥲。
总体来看,图像到视频的扩散模型无法保持草图的独特特征,且容易受到视觉伪影的影响。
Animated Drawings是专为人形骨骼和固定动画设计的方法,因此不太擅长处理简单抽象的草图,以及非人生物,比如鱼。
值得一提的是,最近,来自阿里的研究团队提出了一种名为Animate Anyone的方法,只需一张人物照片,再配合骨骼动画引导,就能生成动画视频。以往图像动画化与姿态迁移视频的局部失真、细节模糊等问题,也得到很大改善。
正如下面这张动图所展示的,无论是真人还是纸片人,都做着整齐划一、自然流畅的舞蹈动作。
就算是梅西来了,也得乖乖跳“科目三”。
不过,LiveSketch也并非没有局限性。
首先,目前,它只能通过简单地修改描述运动的提示,对生成结果进行一定程度的控制。这些修改和控制仅限于模型可以创建的小动作,且文本提示需要与初始草图的语义一致。
举个例子,你可以让猫摇尾巴、蜷缩成一团、走路,但可能很难让它进行后空翻。
其次,LiveSketch通常会将输入的草图描绘为单个对象,当主体包含多个对象时,则无法进行区分。
比如,我们期望篮球与玩家的手分离,以实现自然的运球动作,但目前还无法实现,因为平移参数是相对于篮球所属的对象的。这一限制或许可以通过进一步的技术发展来解决。
同样地,当被应用于场景草图时,由于系统对单个对象的假设,整个场景的移动显得很不自然。
虽然可以通过更改参数来平衡运动质量和草图保真度之间,但有时草图原本的特征依然会受到损害。比如,这里松鼠的动作没问题,但身体的纵横比却发生了明显的变化。
应用与商业化前景如何?
实际上,让随手画的涂鸦动起来,这种堪比“神笔马良”一样的功能,早就已经证明自己的商业化可行性了。
前微软人机交互专家曹翔博士创立的小小牛科技就是这样一家公司,他们自研的Wonder Painter技术,可以把静态2D图像自动转换为交互式3D动画。
比如,在绘画界面随便画一个穿裙子的姑娘,然后她就可以摇身一变成为动画中的人物,直接开始跳舞:
这项技术已经以游戏的形式,应用在了一些线上营销活动中。
未来,这类技术或许还能在艺术创作、儿童教育等领域大放异彩,大大降低艺术创造的门槛,提升教育的趣味性和互动性。
它允许设计师和创作者将静态图像转化为动画片段,仅通过更改描述动作的文本提示,就可以精细调整动画的动态效果,而无需传统动画的繁琐流程。
如此一来,不仅能提高动画创作的效率,还能拓宽非动画专业人士实现视觉叙事的可能性,让设计师能够将静态的草图或概念以更加生动和动态的方式呈现,从而加深受众的沉浸感和情感联结。这对于讲故事、插图、网站、演示文稿等领域都非常有用。
在生成式AI引导的这一轮产业变革中,动画是最早受到影响的行业之一。
但从目前来看,技术投入成本和方向不够明朗,相关人才缺乏,尚未形成成熟的商业模式;有很多流程使用AI可能比人工更贵,或是更低效等因素,也在制约着AIGC技术在动画行业的应用。
(LiveSketch还处于Paper阶段,没有Code可以部署,GitHub传送门:https://livesketch.github.io/)
爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
就说Sora有多火吧。生成的视频上线一个、疯传一个。作者小哥新上传的效果,很快引来围观。失败案例都让人看得上瘾。将近1万人点赞。学术圈更炸开锅了,各路大佬纷纷开麦。纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。英伟达高级研究科学家JimFan高呼,这就是视频生成的GPT-3时刻啊!站长网2024-02-18 09:16:470000十块,低价过品直播爆红,“郑香香们”还能火多久
在真正的低价面前,所有直播套路似乎都显得黯然失色。近期,抖音主播“郑香香”因“低价过品直播”走红。从拖鞋、衣架到T恤,来不及介绍商品名称,她就直接报出价格“十块”,没等观众回过神,下一个商品已经出现在屏幕前。新榜旗下抖音数据工具新抖显示,“郑香香”仅一个月直播场观近1.5亿,预估销售额在7500万元至一亿元。站长网2023-10-19 17:01:090000人工智能可在癌症治疗中得到应用 有助于节省放射科医生时间
人工智能(AI)可能在更多癌症治疗中得到应用,因为一项由一家正在开发和使用该技术的医院进行的研究发现,它有助于节省放射科医生的时间。Osairis是由剑桥大学医院NHS基金会信托的肿瘤学家RajJena博士领导的团队使用NHSAI实验室的50万英镑拨款创建的。该程序目前正在剑桥的阿登布鲁克医院的头颈癌和前列腺癌科使用。站长网2023-06-29 11:35:040000从独占硬件到生成式AI,三星Galaxy S24系列影像设计解析
2024年1月18日,三星正式推出了GalaxyS24系列旗舰机型。作为三星在新一年的首批旗舰产品,GalaxyS24系列在外观上首次引入了钛金属中框设计,配合缎面质感的处理和大幅减薄的机身,使得其机身的档次感和握持舒适度再次迎来飞跃。站长网2024-01-20 12:07:380000没有大招的火山引擎,拿下70%大模型玩家
有没有在开发大模型?在学习。什么时候发布大模型?没计划。当被问起自研大模型,字节跳动副总裁杨震原口风甚严。但席卷全球的这场大模型竞逐战,没有人会主动放弃阵地。最新线索,在上海露出端倪。火山引擎对外的最新技术、产品发布动作中,我们发现:炼大模型的基础设施,不仅已经在字节内部运转,还到了能够对外输出“技术秘籍”的阶段。直观的数字,更能说明情况:站长网2023-04-20 08:58:030002