Media2Face:支持语音等多模态引导生成3D面部动态表情
划重点:
1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。
2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。
3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。
从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。

据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。

研究团队通过三个关键步骤来应对这一挑战:
首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。
然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。
最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。

在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。
条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。
在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。
Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。
产品项目入口:https://sites.google.com/view/media2face
论文地址:arxiv.org/abs/2401.15687
百度百家号上线创作者标注拍摄时间地点功能 AI创作需勾选声明
近日,百度上线创作者标注拍摄时间地点的功能。创作者在发布涉及公共政策等信息时,需要标注内容的来源和拍摄时间地点等信息。此外,创作者如使用AI创作的话,需勾选AI创作声明。具体功能详情如下:一、标注事件来源说明如是创作者自行拍摄的信息,需要说明事件所发生的时间及地点信息。如果创作者发布的内容来源为旧闻旧事,同样需要说明该事件发生的时间和地点。作者后台示例图片如下:站长网2023-09-09 15:31:050000谷歌推出ASPIRE框架 让大模型具备自我判断意识
谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf?ref=maginative.com站长网2024-02-07 09:40:450000苹果分析师郭明錤谈华为归来:迫使苹果走出舒适圈 积极创新
快科技9月9日消息,苹果分析师郭明錤在社交平台上表示,华为回归对消费者来说是一件好事,这将迫使苹果走出舒适圈并积极创新。他还称,如果没有禁令,华为应该早在2023年就率先使用堆叠影像传感器(CIS)。如今华为Mate60系列回归,从发售信息来看,Mate60系列成为了华为的年度爆款机型。不仅如此,华为新一代折叠屏MateX5也成了香饽饽”,华为商城预售期间闪电售罄,黄牛加价售卖。站长网2023-09-09 23:27:0000002.89万亿美元!微软超越苹果成为全球市值最高公司
1月13日消息,当地时间1月12日,美国微软公司当天收盘报388.47美元,以2.89万亿美元的市值超过了苹果公司,重新成为全球市值最高的公司。苹果收盘价为185.92美元,收盘市值为2.87万亿美元。据央视新闻报道称,微软公司市值重新登上榜首是因为在人工智能领域的成功。而苹果公司正面临市场份额下降等一系列问题。站长网2024-01-13 12:09:000000聆心智能与智谱AI合作 发布CharacterGLM超拟人大模型以及AI社区AiU
近日,北京聆心智能科技有限公司发布CharacterGLM超拟人大模型,同时发布了基于CharacterGLM的全新内测产品AiU。据悉,聆心智能与AI大模型公司智谱AI深度合作,基于于GLM基座深度优化升级,打造了CharacterGLM超拟人大模型,具备“六边形能力”——人格、知识、能力、社会化、成长性、价值观。站长网2023-08-07 09:17:200000