Media2Face:支持语音等多模态引导生成3D面部动态表情
划重点:
1. 🧠 引入广义神经参数化面部资产(GNPFA),通过高度概括的表达潜在空间解耦表情和身份。
2. 🌈 创造 M2F-D 数据集,包含大量共语3D面部动画,具备情感和风格标签。
3. 🚀 提出 Media2Face,基于GNPFA潜在空间的扩散模型,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性。
从语音合成3D 面部动态画面已经引起了相当多的关注。由于缺乏高质量的4D 面部数据和注释丰富的多模态标签,以前的方法常常受到现实性有限和缺乏灵活调节的困扰。在这项名为 "Media2Face" 的研究中,来自上海科技大学、Deemos Technology、香港大学等研究人员们致力于解决从语音生成3D面部动画的挑战。
据介绍,Media2Face可以根据声音来生成与语音同步的、表现力丰富的3D面部动画。同时允许用户对生成的面部动画进行更细致的个性化调整,如愤怒、快乐等。Media2Face还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。
研究团队通过三个关键步骤来应对这一挑战:
首先,引入了广义神经参数化面部资产(GNPFA),这是一个高效的变分自编码器,将面部几何和图像映射到高度概括的表达潜在空间,实现表情和身份的解耦。
然后,利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势,形成了M2F-D数据集,这是一个大型、多样化且扫描级别的共语3D面部动画数据集,具有充分注释的情感和风格标签。
最后,提出了Media2Face,这是一个基于GNPFA潜在空间的扩散模型,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态引导。
在模型的训练过程中,研究团队通过训练几何变分自编码器(geometry VAE)学习了表情和头部姿势的潜在空间,实现了对表情与身份的解耦。两个视觉编码器被训练以从RGB图像中提取表情潜在编码和头部姿势。模型以音频特征和CLIP潜在编码作为条件,去噪表情潜在编码序列和头部运动编码。
条件被随机掩码并与嘈杂的头部运动编码进行交叉关注。在推断阶段,通过DDIM采样头部运动编码,将表情潜在编码馈送到GNPFA解码器,提取表情几何,结合模型模板生成受头部姿势参数增强的面部动画。
在实验中,研究团队展示了他们的模型不仅在面部动画合成方面达到了高保真度,而且在3D面部动画的表现力和风格适应性方面取得了显著的拓展。他们通过脚本文本描述生成生动的对话场景,通过图像提示合成风格化的面部动画,甚至在法语、英语和日语中进行情感歌唱。通过表情编码器提取关键帧表情潜在编码,通过CLIP提供每帧风格提示,通过扩散插值技术调整控制强度和范围,进一步生成个性化且细致入微的面部网格,适应不同性别、年龄和族裔的各种身份特征。
Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。
产品项目入口:https://sites.google.com/view/media2face
论文地址:arxiv.org/abs/2401.15687
人体气味分子可远距离吸引蚊子
新华社美国和赞比亚科研人员进行的一项实验显示,人体散发的气味分子可吸引蚊子从几十米外追踪而至,不同“配方”的气味对蚊子的吸引力大不相同。2007年3月14日,乌拉圭卫生工作人员在首都蒙得维的亚的一处公园辨认蚊子种类。图源:新华社站长网2023-05-24 01:34:040000视觉中国回应摄影师称收到死亡威胁:支持报警
摄影师戴建峰(@Jeff的星空之旅)在与"视觉中国"发生版权争议后,称收到人身威胁的私信要求道歉。他在个人微博上发布了私信截图,并表示已经报警,将通过法律途径维护自己的权益。"视觉中国"转发了这条微博,并表示支持戴建峰的报警行为,反对人身威胁的行为。站长网2023-08-19 15:30:550000腾讯AI助手App元宝来了,公众号作者必备
以产品见长的腾讯,终于推出C端AI助手App:腾讯元宝。与之前测试的混元助手相比,元宝在AI搜索、AI总结、AI写作等核心能力上都有升级,大模型效果提升50%。功能听起来好像和同类AI助手也差不多?But,一试才发现——能精准搜到微信公众号生态优质内容的(比如量子位本位~),也就腾讯自己能搞了。站长网2024-05-31 02:21:120000环保还得纯电车!新研究:混动、燃油生命周期排放量远超纯电
快科技8月12日消息,国际清洁运输委员会(ICCT)的一项新研究表明,纯电动汽车在整个车辆生命周期内温室气体排放方面明显胜出,尤其是在使用可再生能源充电的情况下。数据显示,混合动力车(HEV)在整个生命周期内排放量是对应车型纯电动车的2.2倍(轿车)和2.5倍(SUV),插电式混合动力车(PHEV)的排放量约为纯电动车的2倍,内燃机(ICE)SUV的排放量高达纯电动车对应车型的3.5倍。0000见证历史!SpaceX星舰第三次试飞成功发射升空:人类史上最强火箭!
快科技3月14日消息,今晚马斯克的SpaceX星舰进行了第三次试飞,火箭已经发射升空。截至发稿前,星舰火箭一切顺利。根据SpaceX公布的时间表,如果一切顺利,完成一整套流程大约需要64分钟。作为迄今为止人类建造的最庞大、最强大的火箭,星舰由两级可重复使用的部分组成。站长网2024-03-14 23:03:420000