南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
要点:
南大等机构研究人员提出的通用框架,名为VividTalk,能通过一段音频和一张照片生成高质量、富有表现力的说话视频,实现口型和音频的无缝对齐。
框架采用两阶段生成,第一阶段考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,第二阶段渲染内外表面的投影纹理,实现全面建模运动。
VividTalk在实验中展现出优越的生成质量和模型泛化性,支持多语言,能够生成具有丰富表情和自然头部姿势的口型同步头部说话视频。
近日,南大等机构的研究人员推出了一项引人注目的研究成果——VividTalk框架,其能够通过一段音频和一张照片实现令人惊叹的说话视频生成。这一通用框架采用了两阶段生成方法,首先通过考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,生成3D驱动的网格。
论文地址:https://arxiv.org/pdf/2312.01841.pdf
框架的第一阶段注重嘴唇运动和面部表情的生成,使用blendshape和顶点偏移作为中间表征,以提供全局粗略的面部表情运动和局部细粒度的嘴唇运动。为了更合理地学习刚性头部运动,研究人员巧妙地将问题转化为离散有限空间中的代码查询任务,并构建了可学习的头部姿势代码本。这一创新性的方法使得从音频到头部姿势的学习变得更加准确和高效。
第二阶段则在生成器中使用了双分支motionvae来建模2D密集运动,通过投影纹理表示在2D域中进行运动转换,提高了网络性能和生成视频的质量。VividTalk框架在实验中取得了显著的成果,能够生成具有表情丰富、自然头部姿势的口型同步视频。实验数据集的丰富性和优化的训练方法使得该框架在生成质量和模型泛化方面表现优越。
这一框架的推出代表了在语音合成领域的一次重要突破。VividTalk不仅支持多语言,而且在生成效果上也胜过了其他同类方法。这项研究成果将有望在虚拟人物、语音合成和视频制作等领域产生深远的影响。
CopyCopter:一键将文章转为短视频 自动配乐并加字幕
在当今快速发展的数字化世界中,社交媒体的影响力日益增强。然而,创建引人入胜的社交媒体内容常常需要消耗大量时间和精力。为此,一款名为CopyCopter的强大AI工具应运而生,它能够将长篇内容转化为引人入胜的社交媒体片段,为您的内容分发节省时间并扩大影响力。站长网2024-03-05 13:16:140000“妙鸭相机”推出支付宝小程序
近日,火爆出圈的AI应用“妙鸭相机”正式推出了支付宝小程序版本。从7月17日正式上线以来,“妙鸭相机”就以9块9获得高质量写真照引发了网友大量关注,高峰期一度有4000-5000人排队。目前,其支付宝小程序刚上线就吸引了超6万用户访问。同时,妙鸭还在支付宝上开通了生活号。站长网2023-08-11 12:40:050000英伟达公布第二财季财报:净利润61.88亿美元 同比增长843%
英伟达公布了截至2023年7月30日的2024财年第二财季财报,显示其营收达到135.07亿美元,同比增长101%,净利润为61.88亿美元,同比增长843%。调整后每股收益为2.70美元,超出分析师预期。站长网2023-08-26 10:25:190000一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
「高端」的开源,往往采用最朴素的发布方式。昨天,MistralAI在X平台甩出一条磁力链接,宣布了新的开源动作。没有长篇官方博客,没有刻意加速的Demo,这家公司算是当下大模型领域的「一股清流」。打开一看,发现是接近87GB的种子:参数配置什么样?很多人放弃了周末,第一时间下载运行起来。看上去,Mistral8x7B使用了与GPT-4非常相似的架构,但是「缩小版」:0000“淄博丁真”鸭头小哥,闯入直播带货世界
淄博烧烤的火热,带火了一名卖衢州鸭头的小伙。他如今进军直播间,一个月时间积累起60万的粉丝,卖着自己从未使用过的女士内衣和护肤品。与流量有关的魔幻故事在2023年继续发生,这次是淄博。时间和空间的壁垒被打破,披上流量外衣后,术业不再需要有专攻,不用积小流也能成江海。在聚光灯打到身上的15分钟里,怎么才不算浪费?站长网2023-05-28 14:09:200000