西交大开源SadTalker模型 图片+音频秒变视频!
站长网2023-04-19 15:34:551阅
最近,西安交通大学的研究人员提出了SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片 音频就能生成高质量的视频。
为了实现音频驱动的真实头像视频生成,研究人员将3DMM的运动系数视为中间表征,并将任务分为两个主要部分(表情和姿势),旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动),并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。
论文链接:https://arxiv.org/pdf/2211.12194.pdf
项目主页:https://sadtalker.github.io/
研究人员使用SadTalker模型从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率,音频可以是英文、中文、歌曲。
这项技术在数字人创作、视频会议等多个领域都有应用,能够让静态照片动起来,但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。
0001
评论列表
共(0)条相关推荐
苹果发布 iPhone 15 Pro/Max、iPhone 15/Plus 和 Apple Watch Series 9 /Ultra 2 四款全新设备:常规性能提升 售价与上代持平
今天,苹果公司发布了最新的旗舰智能手机系列,即iPhone15Pro和iPhone15ProMax和iPhone15和iPhone15Plus,以及新款AppleWatch系列AppleWatchSeries9和AppleWatchUltra2。AppleWatchSeries9站长网2023-09-13 09:25:310000强过索尼1英寸 曝华为Pura 80搭载国产最强主摄
快科技4月22日消息,上周,华为终端官方宣布,将P系列升级为Pura系列,Pura70成为该系列的首款机型。随着Pura70系列的上市,华为正在紧锣密鼓地筹备Mate70系列和Pura80系列的旗舰产品。数码闲聊站透露,华为Pura80系列将搭载豪威顶级传感器OV50X。这款传感器拥有超大感光元件,并且支持LOFIC技术。站长网2024-04-22 17:06:530000GitHub开放全新代码搜索引擎 帮助开发人员提高效率
GitHub终于宣布面向所有用户推出新的代码搜索引擎,旨在帮助开发人员快速搜索、导航和理解代码,最终提高工作效率。新界面不仅提供建议与补全,还能对搜索结果进行智能分类。阅读和理解代码是软件开发中的一项基本任务,能够快速找到必要的上下文代码可以显着提高效率。新的搜索引擎比旧的搜索引擎更快、更强大,对搜索结果进行智能分类,并支持子字符串、正则表达式和符号搜索。站长网2023-05-10 15:04:510001AI日报:Runway推出“Video to Video”功能;腾讯推AI游戏生成模型 GameGen-O;HeyGen推出Avatar 3.0;OpenAI新模型o1虚有其名?
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Runway推出“VideotoVideo”功能精神小伙秒变科幻片主角站长网2024-09-16 17:40:520000微软发布Windows Copilot 并宣布将Bing引入ChatGPT
在昨日晚间的微软Build年度开发者大会上,微软宣布,将新的Bing引入ChatGPT,ChatGPT将拥有内置搜索引擎,可通过网络访问提供更及时、更新的答案,ChatGPT答案可以基于搜索和网络数据并包含引用。今日起,上述功能将面向ChatGPTPlus订阅者推出,免费用户只需启用一个将Bing引入ChatGPT的插件即可使用。站长网2023-05-24 08:29:340000