EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。
主要功能与特点:
逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。
高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。
实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。
泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。
支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。
解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。
生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。
技术原理:
VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。
案例与资源:
微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。
项目地址:https://top.aibase.com/tool/vasa-1
论文地址:https://arxiv.org/abs/2404.10667
真我将推出Note系列手机:1月24日发布 搭载天玑7050
站长之家(ChinaZ.com)1月16日消息:据知名数码博主@数码闲聊站透露,realme真我将推出全新的Note系列机型,主打中低端市场。据传,该系列机型将为用户带来出色的性能和体验。站长网2024-01-16 10:54:310000淘天回应淘特逐步并回淘宝:增加手淘全量供给服务原有用户
阿里巴巴旗下的电商平台淘特,一直专注于源头直供和M2C模式的运营。然而,根据《晚点LatePost》的报道,淘特平台上的商家和商品正开始逐渐迁回淘宝。在迁移过程中,商品将保留原有的销量、评价等数据标签。目前,部分淘特商家已接到通知,并开始进行迁移测试,以优化更多细节。站长网2024-02-26 17:16:340000开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
刚刚,谷歌杀入开源大模型。开源领域大模型,迎来了重磅新玩家。谷歌推出了全新的开源模型系列「Gemma」。相比Gemini,Gemma更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。Gemma官方页面:https://ai.google.dev/gemma/站长网2024-02-22 09:07:140000《卫报》确认已禁止 ChatGPT 所有者 OpenAI 的 GPTBot 爬虫抓取其内容
《卫报》已经阻止OpenAI从其内容中获取数据。该出版商是最新一家阻止人工智能公司使用其内容来创建ChatGPT等产品的新闻机构。担心OpenAI正在使用未经许可的内容来创建其人工智能工具,已导致作家对该公司提起诉讼,并呼吁创意产业采取措施保护知识产权。站长网2023-09-03 09:04:110000抖音再次辟谣收购饿了么:没有相关计划
今日市场传出消息,有观点认为字节跳动可能斥资75亿美元,收购饿了么的70%股份,而阿里巴巴将保留剩余的30%股份,以财务投资形式继续参与。对于此传闻,抖音方面迅速作出回应,明确否认了相关计划的存在。回溯至今年1月,饿了么被收购的传闻就已沸沸扬扬。对此,阿里本地生活集团董事长兼饿了么CEO俞永福在内部网络平台上向全体员工进行辟谣,他明确表示,谣言终究只是谣言,无法成真。站长网2024-03-15 14:08:010000