阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频
站长网2024-02-28 14:24:460阅
要点:
阿里提出了EMO框架,可根据单张图像和声音生成具有表情丰富的头像视频。
方法包括两个主要阶段:帧编码和扩散过程,利用多种注意机制和时间模块实现头像生成。
EMO支持多语言歌曲和不同风格的头像生成,可应用于歌唱、对话和跨角色表演等领域。
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频,而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。
该框架包含两个主要阶段,首先是帧编码阶段,利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段,通过预训练的音频编码器处理声音嵌入,并结合多帧噪声和面部区域掩码来生成头像。在此过程中,采用了两种注意机制(参考注意和音频注意)和时间模块,以保持角色身份并调节运动速度。
项目地址:https://top.aibase.com/tool/emo
EMO不仅支持多语言歌曲和不同风格的头像生成,还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频,并保持角色的身份特征在长时间内的稳定性。此外,EMO还展示了在快节奏音乐中保持与音频同步的能力,确保角色动画的表现力和动态性。
这一研究对于头像视频生成领域具有重要意义,为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业,还可以在学术研究和教育培训等领域发挥重要作用。然而,需要注意的是,该框架目前仅用于学术研究和效果演示,还有待进一步优化和扩展其应用范围。
0000
评论列表
共(0)条相关推荐
用到崩溃!360软件弹窗广告被指关不完 客服:未提供一键关闭选项
快科技5月23日消息,近日,有网友反馈称自己电脑里的360安全卫士软件弹窗不断,对此官方进行了回应。从这位网友的反馈来看,360安全卫士软件中的弹窗设置”选项多达50余项,而弹窗广告里的关闭选项让人眼花缭乱,无论如何选择,过一段时间,还是照弹不误。”这也引发了网友的热议,有不少人纷纷表示,自己也遭遇到相同的问题。站长网2024-05-23 15:38:410000OpenAI 与 Upwork 合作帮助企业招聘人工智能专家
站长之家(ChinaZ.com)8月1日消息:希望聘请在OpenAI技术中熟悉的人工智能(AI)专家的企业,可以利用OpenAI和Upwork之间的新合作伙伴关系来寻找员工。站长网2023-08-01 09:53:300000中国电竞队《梦三国 2》夺冠 成亚运会电竞项目第二金
9月30日晚间,中国电竞国家集训队以2-0的战绩击败中国香港队,成功获得亚运会《梦三国2》项目的金牌。这是中国电竞国家集训队在本届亚运会中获得的第二枚金牌。此前,在9月27日至30日期间,中国电竞国家集训队在比赛中以2-0的比分战胜了老挝队和越南队。0000马斯克:SpaceX和星链都没用AI AI在这些方面表现糟糕
在洛杉矶近日举行的米尔肯研究所全球会议上,美国知名企业家埃隆·马斯克再次就人工智能(AI)的议题发表了自己的看法。马斯克明确表示,他的太空探索技术公司(SpaceX)在运营中“基本不使用人工智能”。站长网2024-05-08 19:52:020000首战就拿MVP!《英雄联盟》夏季赛EDG 2:1战胜IG:Uzi复出拿首胜
6月14日消息,在今日举行的《英雄联盟》2023LPL夏季赛EDG对战IG的比赛中,EDG战队2:1成功战胜IG,Uzi复出加盟EDG拿下完美首秀。在第一场的比赛中,Uzi选出厄斐琉斯团战输出拉满,帮助EDG团战打出1换3、1换5后,先下一城,首局MVP给到Uzi。站长网2023-06-15 09:55:300000