西交大开源SadTalker模型 图片+音频秒变视频!
站长网2023-04-19 15:34:551阅
最近,西安交通大学的研究人员提出了SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片 音频就能生成高质量的视频。
为了实现音频驱动的真实头像视频生成,研究人员将3DMM的运动系数视为中间表征,并将任务分为两个主要部分(表情和姿势),旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动),并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。
论文链接:https://arxiv.org/pdf/2211.12194.pdf
项目主页:https://sadtalker.github.io/
研究人员使用SadTalker模型从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率,音频可以是英文、中文、歌曲。
这项技术在数字人创作、视频会议等多个领域都有应用,能够让静态照片动起来,但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。
0001
评论列表
共(0)条相关推荐
颠覆传统认知!科学家提出对银河系旋臂形态的新认识
近期,中国科学院紫金山天文台徐烨研究团队与中国科学院国家天文台合作提出对银河系旋臂形态的新认识:银河系更像是一个普通多旋臂星系,由内部对称两旋臂和外部多条不规则旋臂组成,而非之前被广泛接受的四条旋臂均从内到外的特殊形态。该研究结果改变了人们对银河系旋臂结构的传统认识。图1:重新绘制的银河系旋臂结构鸟瞰图。其中彩色线条表示脉泽示踪的旋臂,黑色线条表示年轻恒星和疏散星团示踪的太阳附近的旋臂段。站长网2023-05-24 05:35:580000猿辅导UI设计工具Motiff 魔法框辅助设计师布局
猿辅导旗下UI设计工具Motiff是一款由AI驱动的用户界面设计工具,让人与AI共同协作,开启全新的设计方式和体验,从而让设计团队的工作更加高效。通过AI设计系统,Motiff能够一键提炼组件样式,便利回溯使用场景。AI可以扫描并识别设计稿中的组件和样式,将它们分类整理,并提供查看来源的功能,从而助力设计团队省时提效,更好地实践设计系统。站长网2023-08-31 11:56:100000微软宣布开源 DeepSpeedChat:人人都能拥有自己的 ChatGPT
微软日前宣布开源DeepSpeedChat,(https://github.com/microsoft/DeepSpeed)可帮助用户轻松训练类ChatGPT等大语言模型。站长网2023-04-13 11:55:280001报告称,欧洲AI人才数量超越美国
**划重点:**1.🚀过去十年,欧洲人工智能领域人数激增1000%,如今拥有比美国更多的高技能专业人才。2.💼欧洲AI公司在2023年成功筹集了11个1亿美元以上的超级轮次,推动了创业公司的崛起。3.💰尽管欧洲初创公司在前五年内更难获得VC融资,一旦获得种子投资,达到十亿美元估值的机会与美国相当,呼吁更好的机构投资渠道。站长网2023-11-28 15:55:540000谷歌再次遭受反垄断打击,为其应用商店行为支付 7 亿美元和解金
划重点:-谷歌支付7亿美元以解决与州政府的反垄断诉讼,指控其在应用商店中非法主导市场并向消费者收取过高费用。-谷歌将允许开发者直接向用户收费,无需通过谷歌进行交易。-这次和解可能成为谷歌其他法律挑战的范本。在谷歌输给EpicGames的重大反垄断诉讼一周后,谷歌宣布解决2021年由州检察长提起的应用商店做法诉讼的条款。站长网2023-12-19 15:23:250000