Media2Face:支持语音等多模态引导生成3D面部动态表情
划重点:
1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。
2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。
3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。
从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。
据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。
研究团队通过三个关键步骤来应对这一挑战:
首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。
然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。
最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。
在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。
条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。
在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。
Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。
产品项目入口:https://sites.google.com/view/media2face
论文地址:arxiv.org/abs/2401.15687
美图旗下美图秀秀、Wink上线“AI建模脸”功能
近日,美图公司旗下美图秀秀及Wink上线“AI建模脸”功能。据悉,“建模脸”是指长相标准符合大众审美,五官比较立体,类似CG动漫人物的脸型。据介绍,本次的“AI建模脸”对AI算法进行了优化,使动漫形象更贴合用户原本的面部特征和神态,也真实符合原视频的人像神态,在更好保留用户原貌的基础上,为用户创造出具有高度艺术性和畅快体验的动漫画面。站长网2023-07-18 19:42:400002“你的DNA现在可以从空气中提取”
参考消息网5月22日报道据美国《纽约时报》网站5月15日报道,美国佛罗里达大学野生动物遗传学家戴维·达菲只是想找到一种更好的方法来追踪海龟的疾病。然而,他发现到处都能找到人类脱氧核糖核酸(DNA)。站长网2023-05-24 09:46:280000英伟达正式宣布 AI Foundry 服务:与微软 Azure 合作推出 H100 实例,明年推出 H200 实例
英伟达正式宣布推出其AIFoundry服务计划,这是一套包括英伟达AI基础模型、英伟达NeMo框架和工具,以及DGX云AI超级计算和服务的全方位解决方案,为企业打造和优化定制的生成式AI模型。站长网2023-11-16 10:24:410000京东618将推出言犀虚拟主播 通过AI输出带货文案并自动播报
在今日的2023年京东618商家大会上,京东表示,今年618将是史上助力商家增长投入最多、举措最强的618。站长网2023-04-20 14:03:070000第一代AIGC硬件悄然爆发
看起来,这可能是一副正常的黑框眼镜,你戴上去彬彬有礼、斯斯文文;实际上,它里边还装了一个“小伙伴”,你随时可以与它交流,谈天说地或者提出各种问题接受它的帮助;你化身为了科技极客,成为科幻片里带着有超能力的“小跟班”闯荡世界的酷炫主角……这款眼镜是天猫精灵最近爆出的一款升级了大模型的智能随身眼镜工程机版本。站长网2023-05-21 09:54:590000