阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
站长网2024-02-28 14:24:460阅
要点:
阿里提出了EMO框架,可根据单张图像和声音生成具有表情丰富的头像视频。
方法包括两个主要阶段:帧编码和扩散过程,利用多种注意机制和时间模块实现头像生成。
EMO支持多语言歌曲和不同风格的头像生成,可应用于歌唱、对话和跨角色表演等领域。
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频,而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。
该框架包含两个主要阶段,首先是帧编码阶段,利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段,通过预训练的音频编码器处理声音嵌入,并结合多帧噪声和面部区域掩码来生成头像。在此过程中,采用了两种注意机制(参考注意和音频注意)和时间模块,以保持角色身份并调节运动速度。
项目地址:https://top.aibase.com/tool/emo
EMO不仅支持多语言歌曲和不同风格的头像生成,还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频,并保持角色的身份特征在长时间内的稳定性。此外,EMO还展示了在快节奏音乐中保持与音频同步的能力,确保角色动画的表现力和动态性。
这一研究对于头像视频生成领域具有重要意义,为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业,还可以在学术研究和教育培训等领域发挥重要作用。然而,需要注意的是,该框架目前仅用于学术研究和效果演示,还有待进一步优化和扩展其应用范围。
0000
评论列表
共(0)条相关推荐
阿里推ReplaceAnything框架 可通过AI替换万物 马斯克分分钟变厨子!
要点:阿里智能计算研究院提出的ReplaceAnything框架,可以通过AI替换万物,包括服装、证件照背景、人脸、背景等多个维度。该框架引起社区热议,网友表示可以实现虚拟偶像产业化,甚至贴近产品调性替换人脸,降低明星代言费用。ReplaceAnything工具免费试玩,通过上传图片、选择保留对象、输入Prompt或参考图像、点击生成按钮等步骤,可轻松进行替换。站长网2024-01-15 16:04:480000Airbnb 联合创始人警告:设计师必须参与 AI 的发展,否则将面临被边缘化的风险
Airbnb联合创始人BrianChesky在伦敦RiverCafe的一次独家专访中向Dezeen警告说,设计师必须参与人工智能(AI)的发展,否则未来的世界将在没有他们的参与下被设计出来。Chesky,一位罗德岛设计学院(RISD)的毕业生,提醒设计界,他们可能正重蹈过去的覆辙,当时设计师未能充分利用AI的潜力。站长网2023-11-24 18:10:490000达人营销,走向小V时代
“不是大V投不起,而是小V更有性价比。”在如今的品牌营销圈,这句话转身成为了名言。经历大主播折戟翻车、大博主报价虚高、头部达人带货水平不对板等种种乱象披露之后,处于降本增效的市场大环境中的品牌们开始将营销策略改为求稳,目光转向更具性价比的中小达人。站长网2023-12-19 11:58:090000iPhone 16系列4款机型曝光:屏幕尺寸、重量变了
快科技9月30日消息,据爆料,iPhone16系列也是4款机型,分别是iPhone16、iPhone16Plus、iPhone16Pro和iPhone16ProMax。对比iPhone15系列,iPhone16系列屏幕尺寸、重量有所变化。其中iPhone16和iPhone16Plus屏幕尺寸跟上一代保持不变,重量增加了约2g,分别是6.1英寸、173g和6.7英寸、203g。站长网2023-09-30 09:05:230000Midjourney生成能力惊人 但研究发现它并不理解自己生成的东西
要点:1.生成式AI模型如GPT-4具有强大的生成能力,但在理解生成内容方面存在挑战,引发了一个生成式AI悖论。2.最新研究指出,生成模型的生成能力往往超越了理解能力,与人类的智能配置存在差异。3.这一悖论对人工智能的发展和研究提出了挑战,强调了模型可以创造内容但无法完全理解的概念。站长网2023-11-06 16:59:580000