南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
要点:
南大等机构研究人员提出的通用框架,名为VividTalk,能通过一段音频和一张照片生成高质量、富有表现力的说话视频,实现口型和音频的无缝对齐。
框架采用两阶段生成,第一阶段考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,第二阶段渲染内外表面的投影纹理,实现全面建模运动。
VividTalk在实验中展现出优越的生成质量和模型泛化性,支持多语言,能够生成具有丰富表情和自然头部姿势的口型同步头部说话视频。
近日,南大等机构的研究人员推出了一项引人注目的研究成果——VividTalk框架,其能够通过一段音频和一张照片实现令人惊叹的说话视频生成。这一通用框架采用了两阶段生成方法,首先通过考虑面部运动和blendshape分布之间的映射,利用多分支Transformer网络建模音频上下文,生成3D驱动的网格。
论文地址:https://arxiv.org/pdf/2312.01841.pdf
框架的第一阶段注重嘴唇运动和面部表情的生成,使用blendshape和顶点偏移作为中间表征,以提供全局粗略的面部表情运动和局部细粒度的嘴唇运动。为了更合理地学习刚性头部运动,研究人员巧妙地将问题转化为离散有限空间中的代码查询任务,并构建了可学习的头部姿势代码本。这一创新性的方法使得从音频到头部姿势的学习变得更加准确和高效。
第二阶段则在生成器中使用了双分支motionvae来建模2D密集运动,通过投影纹理表示在2D域中进行运动转换,提高了网络性能和生成视频的质量。VividTalk框架在实验中取得了显著的成果,能够生成具有表情丰富、自然头部姿势的口型同步视频。实验数据集的丰富性和优化的训练方法使得该框架在生成质量和模型泛化方面表现优越。
这一框架的推出代表了在语音合成领域的一次重要突破。VividTalk不仅支持多语言,而且在生成效果上也胜过了其他同类方法。这项研究成果将有望在虚拟人物、语音合成和视频制作等领域产生深远的影响。
前百度高管入局AI搜索,挑战Google和Perplexity,种子轮获6000万美元资金
在这个信息泛滥但缺乏有意义内容的时代,传统搜索引擎的表现常常不尽人意,用户被广告、垃圾邮件和偏见内容所困扰。Genspark的目标是打破这些旧有障碍,不仅要改进搜索技术,还要彻底改变用户访问和与信息互动的方式。Sense思考我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。-AI搜索提供更精准的个性化服务:站长网2024-07-17 17:07:180000国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动
【新智元导读】国产Sora来了!这家公司的AI视频已经实现了15秒4K60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。OpenAI的Sora,现在是彻底把AI视频的场子给热起来了。不仅StableVideo立马上线了公测,而且Pika也随即拿出了给视频对口型的LipSync,以及可以根据内容自动生成声音的音效生成功能。站长网2024-03-14 08:56:190000快速绘制,实时推理,tldraw+LCM太好玩啦!
近期清华发布的潜在一致性模型LCM以及tldraw结合fal.ai的API发布的实时绘图工具drawfast引起了广泛关注。站长网2023-12-01 10:44:270000GPT-5 短期内不会问世,AI的安全问题仍被放大
【CSDN编者按】一封要求暂停AI的公开信引发热议,随之而来的是GPT-5被抵制。在麻省理工学院的活动中,OpenAI的首席执行官兼联合创始人SamAltman首次进行正面回应。站长网2023-04-18 20:45:450000Midjourney封禁Stability AI 禁止后者员工使用软件
要点:Midjourney封禁StabilityAI,因为后者的数据收集工程师恶意爬取数据导致服务器瘫痪24小时。StabilityAICEOEmad表示他并不知情,并强调公司一直在使用合成数据和其他数据进行模型训练。社区对事件有不同看法,一些人要求Midjourney提供证据,另一些人则认为两家公司都有责任。站长网2024-03-07 16:29:290000