DIRFA:只需音频和照片即可创建逼真的说话脸部动画
划重点:
👉 研究人员开发了一个计算机程序,只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。
👉 这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。
👉 DIRFA 可应用于各个领域,包括医疗保健,它能够改进用户体验,使虚拟助手和聊天机器人更加复杂和逼真,同时对于有言语或面部残疾的个人来说,它也能帮助他们通过表情丰富的化身或数字形象来传达他们的思想和情感,增强他们的沟通能力。
新加坡南洋理工大学(NTU Singapore)的一支研究团队开发了一个计算机程序,只需音频和一张照片,即可创建反映说话者面部表情和头部动作的逼真视频。
这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。该程序改进了现有方法,解决了姿势变化和情感控制等问题。
为了实现这一目标,研究团队训练 DIRFA 使用了来自一个名为 The VoxCeleb2Dataset 的开源数据库的超过6000人的100多万个音频视频片段,以预测语音中的线索并将其与面部表情和头部动作联系起来。
研究人员表示,DIRFA 可能在各个行业和领域中产生新的应用,包括医疗保健。它可以使虚拟助手和聊天机器人更加复杂和逼真,从而改善用户体验。此外,它还可以作为一种强大的工具,帮助言语或面部受损的人通过表情丰富的化身或数字形象来传达他们的思想和情感,提高他们的沟通能力。
该研究的的研究人员表示:“我们的研究影响可能是深远的,因为它通过结合人工智能和机器学习等技术,彻底改变了多媒体通信的领域。我们的程序在之前的研究基础上进行了改进,只使用音频记录和静态图像,就能生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的视频。”
研究人员还介绍称:“语音表现出多种变化。在不同的语境下,个体对相同的词语发音可能会有不同的方式,包括持续时间、幅度、音调等方面的变化。此外,除了语言内容,语音还传达了有关说话者情感状态和性别、年龄、种族甚至个性特征等身份因素的丰富信息。我们的方法在音频表示学习和人工智能机器学习方面进行了开创性的努力。” 研究结果于8月份发表在《Pattern Recognition》科学期刊上。
研究人员表示,通过音频驱动逼真的面部表情呈现是一个复杂的挑战。对于给定的音频信号,可能有许多可能的面部表情是合理的,而在处理随时间变化的一系列音频信号时,这些可能性可能会增加。
由于音频通常与嘴唇动作有很强的联系,但与面部表情和头部位置的联系较弱,研究团队的目标是创建能够展示精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部动作的说话脸部。
为了解决这个问题,研究团队首先设计了他们的人工智能模型 DIRFA,来捕捉音频信号和面部动画之间复杂的关系。他们使用来自一个公开可用的数据库的超过6000人的100多万个音频和视频片段对模型进行了训练。
研究人员介绍:“具体而言,DIRFA 模型根据输入的音频来建模面部动画(如挑起眉毛或皱鼻子)的可能性。这种建模使得该程序能够将音频输入转换为多样而逼真的面部动画序列,从而指导说话脸部的生成。”
研究人员还补充说:“广泛的实验表明,DIRFA 能够生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的说话脸部。然而,我们正在努力改进程序的界面,使得用户能够对某些输出进行控制。例如,DIRFA 目前不允许用户调整某种表情,比如将皱眉改为微笑。”
除了向 DIRFA 的界面添加更多选项和改进外,NTU 的研究人员还将使用更广泛的数据集来微调其面部表情,包括更多种类的面部表情和声音音频片段。
论文地址:
https://www.ntu.edu.sg/docs/default-source/corporate-ntu/hub-news/realistic-talking-faces-created-from-only-an-audio-clip-and-a-person-s-photo-using-ntu-singapore-computer-program.pdf?sfvrsn=41d32b2a_1
Sam Altman突遭起底「生活奢靡」!戴340万名表,开上亿豪车,买价值6亿豪宅
【新智元导读】最近,关于Altman的风波不断。有人挖出他戴着价值48万美元的奢侈品手表,开着价值上亿的豪车,而更让人瞠目结舌的,就是他奢华无比的硅谷大佬朋友圈了。Altman被挖坟了!最近有人注意到,在2018年的一次Wired活动中,Altman低头看了看自己的手腕。继续扒皮后有人发现,当时他戴着一款看起来非常奢华的金表。0000京东物流与淘天集团达成合作 将全面接入淘宝和天猫平台
京东物流近日宣布与淘天集团达成合作协议,将全面接入淘宝和天猫平台,为这两个平台的商家提供物流服务。双方的系统对接已基本完成,众多商家已经开始使用京东物流,同时消费者也能在淘宝和天猫的APP内查询到京东物流的轨迹。0000卢伟冰返场直播定档11月9日:回应为何不发小米15销量战报
小米11月直播:卢伟冰回应销售谜团小米今天宣布,卢伟冰将在11月9日晚8点进行直播。在此次直播中,卢伟冰将揭秘小米15销量战报背后的原因。此前,小米14系列销量一直是谜团,官方仅公布了首销5分钟内销量为小米13系列6倍的数据。雷军上周五的直播中透露,他不担心小米15的销售,其销售情况是过去几代产品中最好的。0000OpenAI首席执行官透露2024年ChatGPT最受欢迎的功能请求
划重点:🔍OpenAI首席执行官SamAltman在2024年列举了ChatGPT制造商最常被请求的功能,包括人工通用智能、GPT-5语言模型以及更个性化。📈文章提到了用户对OpenAI在2024年构建或修复的期望,涉及人工通用智能、GPT-5语言模型、更个性化的要求。0000AI视野:Stability AI推出Stable3D;阿里云发布通义灵码;OpenAI称ChatGPT意识已觉醒;全球AI网络安全协议签署
🤖📱💼AI应用StabilityAI推出Stable3D以及一键替换图片天空功能站长网2023-11-02 15:43:390000