DIRFA:只需音频和照片即可创建逼真的说话脸部动画
划重点:
👉 研究人员开发了一个计算机程序,只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。
👉 这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。
👉 DIRFA 可应用于各个领域,包括医疗保健,它能够改进用户体验,使虚拟助手和聊天机器人更加复杂和逼真,同时对于有言语或面部残疾的个人来说,它也能帮助他们通过表情丰富的化身或数字形象来传达他们的思想和情感,增强他们的沟通能力。
新加坡南洋理工大学(NTU Singapore)的一支研究团队开发了一个计算机程序,只需音频和一张照片,即可创建反映说话者面部表情和头部动作的逼真视频。
这个名为 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能够根据音频和照片生成3D 视频,显示人物与所说的音频同步的逼真而一致的面部动画。该程序改进了现有方法,解决了姿势变化和情感控制等问题。
为了实现这一目标,研究团队训练 DIRFA 使用了来自一个名为 The VoxCeleb2Dataset 的开源数据库的超过6000人的100多万个音频视频片段,以预测语音中的线索并将其与面部表情和头部动作联系起来。
研究人员表示,DIRFA 可能在各个行业和领域中产生新的应用,包括医疗保健。它可以使虚拟助手和聊天机器人更加复杂和逼真,从而改善用户体验。此外,它还可以作为一种强大的工具,帮助言语或面部受损的人通过表情丰富的化身或数字形象来传达他们的思想和情感,提高他们的沟通能力。
该研究的的研究人员表示:“我们的研究影响可能是深远的,因为它通过结合人工智能和机器学习等技术,彻底改变了多媒体通信的领域。我们的程序在之前的研究基础上进行了改进,只使用音频记录和静态图像,就能生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的视频。”
研究人员还介绍称:“语音表现出多种变化。在不同的语境下,个体对相同的词语发音可能会有不同的方式,包括持续时间、幅度、音调等方面的变化。此外,除了语言内容,语音还传达了有关说话者情感状态和性别、年龄、种族甚至个性特征等身份因素的丰富信息。我们的方法在音频表示学习和人工智能机器学习方面进行了开创性的努力。” 研究结果于8月份发表在《Pattern Recognition》科学期刊上。
研究人员表示,通过音频驱动逼真的面部表情呈现是一个复杂的挑战。对于给定的音频信号,可能有许多可能的面部表情是合理的,而在处理随时间变化的一系列音频信号时,这些可能性可能会增加。
由于音频通常与嘴唇动作有很强的联系,但与面部表情和头部位置的联系较弱,研究团队的目标是创建能够展示精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部动作的说话脸部。
为了解决这个问题,研究团队首先设计了他们的人工智能模型 DIRFA,来捕捉音频信号和面部动画之间复杂的关系。他们使用来自一个公开可用的数据库的超过6000人的100多万个音频和视频片段对模型进行了训练。
研究人员介绍:“具体而言,DIRFA 模型根据输入的音频来建模面部动画(如挑起眉毛或皱鼻子)的可能性。这种建模使得该程序能够将音频输入转换为多样而逼真的面部动画序列,从而指导说话脸部的生成。”
研究人员还补充说:“广泛的实验表明,DIRFA 能够生成具有准确的嘴唇动作、生动的面部表情和自然的头部姿势的说话脸部。然而,我们正在努力改进程序的界面,使得用户能够对某些输出进行控制。例如,DIRFA 目前不允许用户调整某种表情,比如将皱眉改为微笑。”
除了向 DIRFA 的界面添加更多选项和改进外,NTU 的研究人员还将使用更广泛的数据集来微调其面部表情,包括更多种类的面部表情和声音音频片段。
论文地址:
https://www.ntu.edu.sg/docs/default-source/corporate-ntu/hub-news/realistic-talking-faces-created-from-only-an-audio-clip-and-a-person-s-photo-using-ntu-singapore-computer-program.pdf?sfvrsn=41d32b2a_1
不敌 HarmonyOS、难续 Android 神话,Google 欲放弃 Fuchsia:不再引入完整的 Chrome 浏览器
曾对GoogleFuchsia抱有多大期望,现在恐就会有多少失望。据外媒9to5google最新报道,Google决定不再将完整的Chrome浏览器引入Fuchsia操作系统上。站长网2024-01-16 18:09:0900035000亿!微软宣布正式完成收购动视暴雪:史上最大收购案落下帷幕
快科技10月13日消息,英国竞争与市场管理局(CMA)当地时间周五发布声明,称已批准微软对动视暴雪修订后的收购交易,但不包括云游戏的版权。至此,这起游戏行业史上金额最大的收购案跨过了最后一座大山。微软在2022年1月份首次提出以687亿美元(约合5020亿元人民币)收购动视暴雪,但此后一直面临着美国、欧洲和英国等监管方面的挑战。站长网2023-10-13 16:18:120000播放量超5亿,这届年轻人“偷感很重”
这届年轻人,突然发现自己“偷感很重”。拍照时对镜头很躲闪,只敢比“剪刀手”;和陌生人说话要做很久的准备,张口却还是支支吾吾;明明是靠自己努力取得的成绩,却莫名感到心虚和不配得感……偷感,就是这样一种偷偷摸摸、小心翼翼的感觉。虽然做的不是什么见不得人的事,但他们不愿被人关注,害怕别人误会,只想做一个透明人默默做事获得安全感。站长网2024-06-08 17:02:3700002023,何以成为店播爆发元年?
店播时代,一场商家不得不上的赌局。陆元元是一家头部日化品牌的管培生,主要负责营销策划的工作,2023年9月以项目支援的名义来到了主播组,成为一名带货主播。作为一个i人(性格内向),陆元元其实并不喜欢直播,但直播“能帮助到具体的人”,她享受帮助别人的价值感。0000“年薪1500万”的网红经济学家,要卖生发液?
三个月时间,头发变多变粗变黑,没有植发,只需要一种营养液。谁也没料到,这则带着浓浓硬广信息的推文,出现在网红经济学家任泽平的微博中。5月29日,曾担任恒大集团首席经济学家的任泽平,高调发布了一则带货微博,卖起了生发产品,他在文中介绍道:“仁生泽发,专注头皮头发健康管理,6月8号全网开售。”站长网2023-05-31 13:50:100000