西交大开源SadTalker模型 图片+音频秒变视频!
站长网2023-04-19 15:34:551阅
最近,西安交通大学的研究人员提出了SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片 音频就能生成高质量的视频。

为了实现音频驱动的真实头像视频生成,研究人员将3DMM的运动系数视为中间表征,并将任务分为两个主要部分(表情和姿势),旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动),并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。

论文链接:https://arxiv.org/pdf/2211.12194.pdf
项目主页:https://sadtalker.github.io/
研究人员使用SadTalker模型从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率,音频可以是英文、中文、歌曲。
这项技术在数字人创作、视频会议等多个领域都有应用,能够让静态照片动起来,但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。
0001
评论列表
共(0)条相关推荐
调查显示:1/3的翻译者和1/4的插画师已经因AI失去了工作
英国作家协会对12,500名成员进行了一项关于生成性人工智能(AI)的影响调查,收集了近800份反馈,揭示了AI技术对作家、翻译者、插画师等职业的深远影响。图源备注:图片由AI生成,图片授权服务商Midjourney调查的主要发现包括:使用生成性AI的创作者:约五分之一的受访者(22%)在工作中使用过生成性AI。站长网2024-04-28 15:51:310000消息称字节研发大模型新项目代号O
据Tech星球消息,抖音社交负责人陆游,已经调岗至大模型团队担任相关负责人,向大模型团队负责人朱文佳汇报。另外,字节内部正在研发新的大模型项目,代号“O”。此前,陆游一直在负责抖音的社交体系和项目,任职期间,孵化了多个社交项目,包括此前的虚拟社交功能“抖音仔仔”,以及密友社交“抖音时刻”等。站长网2023-07-20 16:18:010002美图云修Pro版正式发布 同时开放智能修图API服务
美图公司旗下的美图云修发布了Pro版,同时开放了智能修图API服务,为商业摄影行业提供全方位的智能修图解决方案。Pro版采用全新的图像处理引擎,实现实时预览,节省等待时间,适合约拍和旅拍等即时修图场景。同时,美图云修还开放了智能修图API,支持多端应用,实现“即拍即修”,快速出图。站长网2023-12-19 08:37:490001潮汕女生要去IPO敲钟了
把自己的爱好做成一家上市公司,朱嘉盈快要实现这个梦想了。投资界-天天IPO获悉,近日,日日煮食品集团DayDayCook(简称“日日煮”)向美国证券交易委员会(SEC)递交F1文件,拟在美国纽约证券交易所(NYSE)上市。据悉,日日煮这次计划通过上市融资筹集最少4000万美元。站长网2023-06-24 14:17:050000零一万物发布自研全导航图向量数据库「笛卡尔(Descartes)」
3月11日,零一万物发布了基于全导航图的新型向量数据库「笛卡尔(Descartes)」,在权威榜单ANN-Benchmarks上获得了6项数据集评测的第一名。向量数据库是AI时代的信息检索技术之一,对于大模型应用开发者非常重要。笛卡尔向量数据库将用于即将推出的AI产品中,并将提供给开发者使用。站长网2024-03-12 08:52:590000