登陆注册
21779

阿里对口型项目EMO开启内测 可将照片转为唱歌视频

站长网2024-04-26 04:10:480

千呼万唤始出来!阿里对口型项目EMO终于开启内测了。它能够将一张简单的照片转化为唱歌视频,为用户提供了一种全新的数字人出镜体验。

EMO模型的特点:

简便的操作: 用户只需提供一张照片和克隆的语音模型,即可定制自己的数字人像。

低成本: 与Heygen等需要录制长视频和高算力成本的产品相比,EMO模型提供了一种免费且高效的解决方案。

广泛的适用性: 不仅限于写实人像,3D模型和二次元漫画风格也能生成视频,满足不同用户的需求。

自然的表达: EMO模型在talking head领域首次提出weak condition(弱控制)设计,通过较弱的控制条件引导diffusion去噪过程,生成表情丰富、表现力强的人脸。

技术实现:

EMO模型通过算法pipeline中的face locator和speed layers控制人脸生成区域与人头动作频率,保留了diffusion模型的生成创造能力。

模型在训练中学习音频特征与图像像素的对应关系,放大音频特征对相关像素的影响,确保人物表情口型与音频特征一致。

EMO在250小时的人物讲话视频上训练,不仅匹配了音频中具体发音与人像口型,还发现了音频中的语气特征与人物表情的关联性,将音频中的情绪色彩反映到人物微表情上。

内测链接申请地址:https://www.wjx.top/vm/exOVbr1.aspx#

项目地址:https://top.aibase.com/tool/emo

0000
评论列表
共(0)条