西交大开源SadTalker模型图片+音频秒变视频！

站长网2023-04-19 15:34:551阅

最近，西安交通大学的研究人员提出了SadTalker模型，通过从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动，可以实现图片音频就能生成高质量的视频。

为了实现音频驱动的真实头像视频生成，研究人员将3DMM的运动系数视为中间表征，并将任务分为两个主要部分（表情和姿势），旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动)，并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。

论文链接:https://arxiv.org/pdf/2211.12194.pdf

项目主页:https://sadtalker.github.io/

研究人员使用SadTalker模型从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率，音频可以是英文、中文、歌曲。

这项技术在数字人创作、视频会议等多个领域都有应用，能够让静态照片动起来，但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。

西交大开源SadTalker模型图片 x2B音频秒变视频

0001

评论列表

共(0)条

相关推荐

站长资讯
调查显示：1/3的翻译者和1/4的插画师已经因AI失去了工作
英国作家协会对12，500名成员进行了一项关于生成性人工智能（AI）的影响调查，收集了近800份反馈，揭示了AI技术对作家、翻译者、插画师等职业的深远影响。图源备注：图片由AI生成，图片授权服务商Midjourney调查的主要发现包括:使用生成性AI的创作者:约五分之一的受访者（22%）在工作中使用过生成性AI。
站长网2024-04-28 15:51:31
0000
站长资讯
消息称字节研发大模型新项目代号O
据Tech星球消息，抖音社交负责人陆游，已经调岗至大模型团队担任相关负责人，向大模型团队负责人朱文佳汇报。另外，字节内部正在研发新的大模型项目，代号“O”。此前，陆游一直在负责抖音的社交体系和项目，任职期间，孵化了多个社交项目，包括此前的虚拟社交功能“抖音仔仔”，以及密友社交“抖音时刻”等。
站长网2023-07-20 16:18:01
0002
站长资讯
美图云修Pro版正式发布同时开放智能修图API服务
美图公司旗下的美图云修发布了Pro版，同时开放了智能修图API服务，为商业摄影行业提供全方位的智能修图解决方案。Pro版采用全新的图像处理引擎，实现实时预览，节省等待时间，适合约拍和旅拍等即时修图场景。同时，美图云修还开放了智能修图API，支持多端应用，实现“即拍即修”，快速出图。
站长网2023-12-19 08:37:49
0001
站长资讯
潮汕女生要去IPO敲钟了
把自己的爱好做成一家上市公司，朱嘉盈快要实现这个梦想了。投资界-天天IPO获悉，近日，日日煮食品集团DayDayCook（简称“日日煮”）向美国证券交易委员会(SEC)递交F1文件，拟在美国纽约证券交易所(NYSE)上市。据悉，日日煮这次计划通过上市融资筹集最少4000万美元。
站长网2023-06-24 14:17:05
0000
站长资讯
零一万物发布自研全导航图向量数据库「笛卡尔（Descartes）」
3月11日，零一万物发布了基于全导航图的新型向量数据库「笛卡尔（Descartes）」，在权威榜单ANN-Benchmarks上获得了6项数据集评测的第一名。向量数据库是AI时代的信息检索技术之一，对于大模型应用开发者非常重要。笛卡尔向量数据库将用于即将推出的AI产品中，并将提供给开发者使用。
站长网2024-03-12 08:52:59
0000