19337

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

站长网2024-02-28 14:24:460阅

要点:

阿里提出了EMO框架，可根据单张图像和声音生成具有表情丰富的头像视频。

方法包括两个主要阶段:帧编码和扩散过程，利用多种注意机制和时间模块实现头像生成。

EMO支持多语言歌曲和不同风格的头像生成，可应用于歌唱、对话和跨角色表演等领域。

近期，阿里巴巴智能计算研究所提出了一种新的生成式框架EMO，只需输入图片和音频即可生成具有表现力的视频，而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配，但也可能成为造假的利器，因此一些名人可能需要警惕了。

该框架包含两个主要阶段，首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，并结合多帧噪声和面部区域掩码来生成头像。在此过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调节运动速度。

项目地址:https://top.aibase.com/tool/emo

EMO不仅支持多语言歌曲和不同风格的头像生成，还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频，并保持角色的身份特征在长时间内的稳定性。此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业，还可以在学术研究和教育培训等领域发挥重要作用。然而，需要注意的是，该框架目前仅用于学术研究和效果演示，还有待进一步优化和扩展其应用范围。

阿里推声画同步框架EMO1张图片加音频即可生成对口型视频

0000

评论列表

共(0)条

相关推荐

站长资讯
Spotify测试AI歌单功能输入提示词就能创建歌单
##划重点:1.🎵Spotify确认测试基于提示的AI歌单功能，允许用户使用AI技术和提示创建歌单。2.🤖视频显示用户通过“YourLibrary”选项在Spotify应用中使用ChatGPT创建歌单的过程，AI响应用户的提示并生成歌单。3.🌐Spotify公司确认测试，但未透露技术细节、工作原理，也未承诺正式上线时间。
站长网2023-12-15 10:55:51
0000
LG与联合国教科文组织合作推动人工智能伦理
**划重点:**1.🌐LGAIResearch与联合国教科文组织在首尔签署了合作意向书，旨在共同促进人工智能伦理的知识和认识。2.🎓合作将通过大规模在线课程和人工智能伦理教材加强公共和私营部门的能力。3.🤖协议重点推动既有助于人类又有助于可持续发展的人工智能技术，包括实施人工智能伦理影响评估和制定有效的治理模型以确保数据隐私和安全。
站长网站长资讯2023-11-27 14:57:55
0000
站长资讯
AI哨所｜工资翻番、送宝马印度开始疯抢AI人才
凤凰网科技讯《AI哨所》北京时间5月4日消息，生成式人工智能（AI）热潮正在引发一场人才争夺战。在印度，顶尖AI人才的工资会增加一倍，签字费是一辆宝马摩托车。
站长网2023-05-04 10:45:46
0002
站长资讯
为10万法律学生，提供类ChatGPT服务！「律商联讯」与美国律师协会合作
全球法律服务巨头「律商联讯」在官网宣布，从2024年春季学期开始，为美国律师协会（ABA）认证的10万名法学院的学生，提供类ChatGPT助手——LexisAI。ABA旗下的官方期刊，已经确认了该消息。这是全球第一个将生成式AI，大规模应用在学校的案例，同时也开创了教育界的历史，生成式AI产品开始进入课堂。
站长网2023-12-27 09:10:06
0000
站长资讯
一个月涨粉67万，淄博鸭头小哥开始带货了
“我们已经不是为了赚钱，而是为了淄博的荣誉而战。”今年3月，大学生组团“进淄赶烤”火遍了整个网络。无数淄博人不吃烧烤“礼让”外地游客，留意起自己的一言一行，还自发去车站给游客送特产。商家也加足马力，不涨价不放假，用热情、质朴的表现维护着来之不易的关注度。互联网语境下，流量意味着竞争力，也意味着收益，工业城市淄博第一次体会到了流量的甜头，其中的470万本地人一起小心翼翼书写了淄博的流量故事。
站长网2023-05-23 09:08:31
0000