阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
站长网2024-02-28 14:24:460阅
要点:
阿里提出了EMO框架,可根据单张图像和声音生成具有表情丰富的头像视频。
方法包括两个主要阶段:帧编码和扩散过程,利用多种注意机制和时间模块实现头像生成。
EMO支持多语言歌曲和不同风格的头像生成,可应用于歌唱、对话和跨角色表演等领域。
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频,而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。
该框架包含两个主要阶段,首先是帧编码阶段,利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段,通过预训练的音频编码器处理声音嵌入,并结合多帧噪声和面部区域掩码来生成头像。在此过程中,采用了两种注意机制(参考注意和音频注意)和时间模块,以保持角色身份并调节运动速度。
项目地址:https://top.aibase.com/tool/emo
EMO不仅支持多语言歌曲和不同风格的头像生成,还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频,并保持角色的身份特征在长时间内的稳定性。此外,EMO还展示了在快节奏音乐中保持与音频同步的能力,确保角色动画的表现力和动态性。
这一研究对于头像视频生成领域具有重要意义,为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业,还可以在学术研究和教育培训等领域发挥重要作用。然而,需要注意的是,该框架目前仅用于学术研究和效果演示,还有待进一步优化和扩展其应用范围。
0000
评论列表
共(0)条相关推荐
Meta承诺在Facebook和Instagram上标注AI生成的图像
**划重点:**1.🔍Facebook和Instagram用户将在其社交媒体上看到AI生成图像的标签,这是科技行业为区分真实与虚假而发起的广泛倡议的一部分。2.🔍Meta表示正在与行业合作伙伴共同制定技术标准,以便更容易识别由人工智能工具生成的图像,最终将包括视频和音频。3.🔍在AI生成的内容愈发容易制作和传播的当下,Meta的举措被认为是对在线虚假内容问题的认真回应。站长网2024-02-07 10:38:480000被AI吞噬的“AI三杰”
“你有这么高速运转的机械进入中国,记住我给出的原理。”“黄龙江一派全都带蓝牙,黄龙江我告诉你,在阴间是那个化名。”春节期间,“黄龙江文学”意外走红互联网,这段掺杂着大量高级专业名词、又宛如乱码的语句一跃成为新晋抽象顶流,并迅速点燃了用户的玩梗热情。在大量二创作品中,全网粉丝超百万的艺术博主@曾bobi却惨遭“翻车”。站长网2024-03-07 17:06:230000OpenAI公布安全系统 确保AI大模型安全可靠
今日,OpenAI公布了公司在安全方面的举措。OpenAI表示,其安全系统团队处于确保当今现实世界中人工智能模型安全性和可靠性的最前沿。安全系统团队致力于确保人工智能模型及其在现实世界中的部署的安全性、稳健性和可靠性。他们通过实践和研究来解决安全问题,并开发基本解决方案,以确保人工智能的安全和值得信赖。安全团队包括安全工程、模型安全研究、安全推理研究和人机交互等多个小组:站长网2023-12-06 08:59:570000OpenAI 获得更多的英伟达 H100 芯片,CEO Sam Altman 预测明年芯片获取将更加顺利
在日前接受《金融时报》采访时,OpenAI首席执行官SamAltman表示,公司已经收到了备受期待的英伟达H100芯片订单,并预计不久后会收到更多。他补充道,「明年在获取更多芯片方面看起来已经会更好」。站长网2023-11-15 20:31:050000OpenAI全量上线4o视频通话 - 我们等了7个月。
今天是OpenAI直播第6天,终于来了个能看点的。Day4是个很无聊的canvas的极小更新以及向全量用户开放,昨晚Day5完全就是给苹果做下PR,都是纯粹的垃圾时间。而今天,4o的实时视频通话,终于来了。是不是感觉有点陌生?没想到吧,4o居然还有实时视频通话。。。鸽了7个月,快被人忘干净了。总结一下今天的直播,有三个东西:实时视频通话。实时理解屏幕。圣诞老人限定语音。站长网2024-12-13 09:00:100000