腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源
单击画面中的火箭,输入“发射”prompt,瞬间起飞!

就连想要回收火箭,也只需要输入“Launch down”,再轻轻一点击:

马斯克看了都要自我怀疑一下,这火箭发射这么简单,自家星舰成功进入太空怎么那么难(开个小玩笑)??
以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。
食用方法非常友好:
任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。
就连《一人之下》的诸葛青和《唐伯虎点秋香》里的星爷也……

相关研究论文已经挂上了arXiv,GitHub上也放出代码,首日就小有战绩,揽星280 。

想动哪里点哪里,so easy
注意看这个楼梯上的动画小鼠形象,只需单击小鼠腹部,再输入“跳舞”,它就能瞬间扭动起来。
同时,画面的其他部分保持原有的静止状态。

不只是人物、卡通形象可以控制,图片的其余部分,通过点击和输入简短提示词,也能动起来。
进一步测试,是可以实际感知到Follow-Your-Click对画面动态部分的精准控制的。
同样是鸟图,点击小鸟,输入“动动脑袋”:

输入“扇扇翅膀”:

输入“跳个舞吧”:

输入“不如摇摆”:

总结,就是想要哪里动,就点哪里。
研究团队还将Follow-Your-Click和其他视频生成模型进行了同题对比,以下是实验效果:


一键点,万物动
此前图生视频模型的生成方法,一般都需要用提示词描述运动区域,并提供运动指令的详细描述。
从生成效果来看,过往技术在指定图像移动部分缺乏控制,往往是让整个场景动起来,而不是具体到图像上的某个区域。

为了解决这些问题,腾讯混元大模型团队、清华和港科大联合项目提出了更实用和可控的图像到视频生成模型Follow-Your-Click。
实现方式上,Follow-Your-Click首先整合了图像语义分割工具Segment-Anything,将用户点击转换为二进制区域Mask,将其作为网络条件之一。
其次,为了更好地正确学习时间相关性,团队还引入了一种有效的首帧掩模策略。
这种方式对模型生成的视频质量有较大的性能提升,不论是在畸变还是首帧的重构效果上都有很大的帮助。
此外,为了实现简短提示词的文字驱动能力,研究团队构建了一个名为WebVid-Motion的数据集——利用大模型来过滤和注视视频标题,并强调人类情感、动作和常见物体的运动,通过数据集提升模型对动词的响应和识别能力。
联合研究团队还设计了一个运动增强模块,主要用途一方面是更好地适应数据集,一方面用来增强模型对运动相关词语的响,同时理解简短提示指令。

在视频中,不同类型的物体可能表现出不同的运动速度。
以往的工作中,每秒帧数(FPS)主要作为全局的动作幅度控制参数,间接调整多个物体的运动速度。然而,它无法有效控制移动物体的速度。
举个粟子,一个展示雕塑的视频可能具有很高的FPS,但是没有物体的运动速度。
为了实现对运动速度的准确学习,研究团队提出了一种基于光流的运动幅度控制,使用光流模长作为新的视频运动幅度控制参数。

以上这些新提出的方法,加上各模块的组合,Follow-Your-Click大大提升了可控图生视频的效率和可控性,最终实现了用简单文本指令来实现图像局部动画。
One More Thing
小道消息!
Follow-Your-Click联合项目组中的腾讯混元大模型团队,正努力研究和探索多模态技术。
此前,该团队已经作为技术合作伙伴,支持了《人民日报》的原创视频《江山如此多娇》。
该说不说,2024年,一定是多模态卷到爆炸的一年……
项目主页:https://follow-your-click.github.io/
论文链接:https://arxiv.org/pdf/2403.08268.pdf
GitHub:https://github.com/mayuelala/FollowYourClick
创新视频制作平台Pipio:简单的文字脚本即可生成真人化的数字角色
Pipio是一个创新的视频制作平台,能够通过简单的文字脚本,使用真人化的数字角色,在几分钟内制作出高质量的视频。Pipio视频制作简单高效,无需考虑演员选择、场景取景、昂贵的设备和复杂的后期编辑。用户只需要输入文字脚本,选择数字角色和语音,Pipio即可自动生成视频。平台拥有多种语言和种族的数字角色可供选择,提高视频的多样性和可观性。站长网2023-09-05 14:38:240000B站百大,一个挖增量的游戏
2021年10月,在中国市场挣扎多年的二线豪车品牌沃尔沃,请来一位新代言人:罗翔。沃尔沃广告海报中,罗翔以“法学教授”的身份出镜。但明眼人都能看出,沃尔沃选择罗翔,看重的不是其学术背景,而是他的另一重身份:B站头部知识创作者、百大UP主、年度最高人气奖得主。0000用AI“复活”8年前的老产品,拿下570万美元融资、20万预注册用户
「Daze」是一款可发送“自由式消息”的通讯应用,以Z世代为主要客群。区别于iMessage和WhatsApp等应用统一使用蓝色或者绿色气泡规整呈现对话的方式,「Daze」让对话“漂浮”在屏幕上,并允许用户使用不同的字体、贴图、动画,甚至是小游戏来进一步丰富对话。以上新颖的交互设计,很快让「Daze」“未发先红”。站长网2024-11-06 14:45:070000阿里巴巴将派发 2023 财年年度股息 总额约为 25 亿美元
阿里巴巴在港交所公告,将向截至2023年12月21日香港时间及纽约时间收市时登记在册的普通股持有人和美国存托股持有人,就2023财年首次派发年度股息,金额分别为每股普通股0.125美元或每股美国存托股1.00美元,以美元支付。根据财报披露,股息总额约为25亿美元。站长网2023-12-06 09:16:360001京东紧急驰援西藏震区 刘强东:全国任何地方发生灾难 捐物资无需汇报
快科技1月7日消息,据中国地震台网正式测定,今天9时5分在西藏日喀则市定日县发生6.8级地震,震源深度10公里,截至目前,地震已造成90余人遇难、130人受伤。据京东物流黑板报”公众号,在地震灾害发生的第一时间,京东集团积极响应,成立应急响应专班,快速启动应急救援预案,从震区附近的仓库中紧急调拨饮用水、食品、御寒衣物、帐篷、应急电源等急需物资,京东物流以专人专车方式运往灾区。0000