南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
要点:
南大等机构研究人员提出的通用框架,名为VividTalk,能通过一段音频和一张照片生成高质量、富有表现力的说话视频,实现口型和音频的无缝对齐。
框架采用两阶段生成,第一阶段考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,第二阶段渲染内外表面的投影纹理,实现全面建模运动。
VividTalk在实验中展现出优越的生成质量和模型泛化性,支持多语言,能够生成具有丰富表情和自然头部姿势的口型同步头部说话视频。
近日,南大等机构的研究人员推出了一项引人注目的研究成果——VividTalk框架,其能够通过一段音频和一张照片实现令人惊叹的说话视频生成。这一通用框架采用了两阶段生成方法,首先通过考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,生成3D驱动的网格。
论文地址:https://arxiv.org/pdf/2312.01841.pdf
框架的第一阶段注重嘴唇运动和面部表情的生成,使用blendshape和顶点偏移作为中间表征,以提供全局粗略的面部表情运动和局部细粒度的嘴唇运动。为了更合理地学习刚性头部运动,研究人员巧妙地将问题转化为离散有限空间中的代码查询任务,并构建了可学习的头部姿势代码本。这一创新性的方法使得从音频到头部姿势的学习变得更加准确和高效。
第二阶段则在生成器中使用了双分支motionvae来建模2D密集运动,通过投影纹理表示在2D域中进行运动转换,提高了网络性能和生成视频的质量。VividTalk框架在实验中取得了显著的成果,能够生成具有表情丰富、自然头部姿势的口型同步视频。实验数据集的丰富性和优化的训练方法使得该框架在生成质量和模型泛化方面表现优越。
这一框架的推出代表了在语音合成领域的一次重要突破。VividTalk不仅支持多语言,而且在生成效果上也胜过了其他同类方法。这项研究成果将有望在虚拟人物、语音合成和视频制作等领域产生深远的影响。
史上第一套高考AI模拟卷诞生!由王老吉联手百度文心大模型打造
今日,王老吉宣布联合百度,运用文心大模型能力打造「高考AI模拟卷」。据悉,王老吉联合百度,邀请学科名师指导,语言理解与生成技术应用文心大模型能力,学习近十年的高考考点、题型等内容,智能生成“高考AI模拟卷”本次高考AI模拟卷,是技术凭借较强的学习能力和庞大数据处理能力,研究考试重点模拟成题,意在助力考生在高考前再次查漏补缺,巩固要点。站长网2023-05-18 11:59:080001揭秘人工智能行业: 访问量最高的 50 个 AI 工具及其超过 24 亿次访问行为
最新研究数据显示,ChatGPT在AI工具市场中占据主导地位,市场份额高达60%。据WriterBuddy.ai发布的报告,人工智能在线上已成为「无处不在的力量」,50个基于AI的网站在11个月内吸引了超过24亿次访问。站长网2023-11-17 17:50:410000在中国这个炙手可热的传感器赛道,被清华系只手遮天!
在这个传感器赛道里,几乎都是清华毕业生建立的公司,他们瓜分了整个国产传感器细分领域,堪称“只手遮天”!看看清华学霸有多厉害!您对本文有什么观点?请在传感器专家网公众号本内容底下留言讨论,或在中国最大的传感社区:传感交流圈中进行交流。获取传感器知识、报告,请点击蓝字查看《传感器专业知识资料100,总有一份适合你~》内容,汇聚多篇权威传感器知识资料,持续更新ing……传感器专家网站长网2023-05-24 06:41:53000270亿,张勇去做VC了
张勇挥一挥衣袖。昨晚(9月10日),阿里巴巴集团董事会主席蔡崇信发布全员信宣布,已在当日按计划完成集团管理职务交接,由他接任集团董事会主席职务,吴泳铭出任集团CEO。令人意外的是,原本计划Allin阿里云的张勇(逍遥子),这一次却选择告别——卸任阿里云董事长与CEO的职务。站长网2023-09-11 16:44:500000腾讯砸14亿推广《元梦之星》 官方宣布严打外挂:作弊封10年
快科技12月29日消息,12月中旬,腾讯正版合家欢派对游戏《元梦之星》正式上线,官方还宣布将投入14亿的宣传费用,在微信,抖音,B站、微博等平台全面进行广告轰炸”。今日,腾讯游戏安全中心”发文称,外挂的存在破坏了游戏的公平性和所有正常玩家的游戏体验,无论是游戏官方或是游戏玩家,都绝不容忍其存在。站长网2023-12-30 12:09:540000