EMO同款？微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

站长网2024-04-18 17:10:100阅

由微软亚洲研究院开发的VASA-1项目，是一项前沿的人工智能技术，它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步，还能够捕捉并再现丰富的面部表情和自然的头部动作，极大地增强了生成视频的真实感和生动性。

主要功能与特点:

逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频，包括精确的唇部运动同步和复杂的面部表情及头部动作。

高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动，这些都是人类交流中常见的非语言行为。

实时视频生成: 利用NVIDIA RTX4090GPU，VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频，以及在线流模式下的40fps生成速度，前置延迟仅为170毫秒，适合实时应用。

泛化能力: 模型展现出强大的适应能力，即使面对与训练数据不同的音频或图像，如不同的语言或非常规的艺术照片，也能够有效工作。

支持多种语言: VASA-1不仅支持中文，还能处理多种语言的语音输入，甚至能够生成唱歌的动画。

解耦能力: 模型能够独立处理和控制人脸的不同动态特征，如嘴唇运动、表情、眼睛注视方向等，提供了高度的解耦和可控性。

生成的可控性: 通过引入条件信号，如眼睛注视方向、头部距离和情绪偏移，VASA-1增强了视频生成的可控性，允许更精细的调整和个性化的动画输出。

技术原理:

VASA-1项目利用了一系列先进的计算机视觉和机器学习技术，包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

案例与资源:

微软亚洲研究院提供了VASA-1的项目演示和相关论文，以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像，除了蒙娜丽莎外，都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。

项目地址：https://top.aibase.com/tool/vasa-1

论文地址：https://arxiv.org/abs/2404.10667

EMO同款微软发布对口型软件VASA1 图片加语音即可生成逼真说话视频

0000

评论列表

共(0)条

相关推荐

站长资讯
第二代蔚来手机 NIO Phone 2手机或将于 7 月 27 日发布
蔚来汽车公司宣布，NIOIN2024蔚来创新科技日将于7月27日在上海举行。届时，蔚来将发布其第二代智能手机——NIOPhone。蔚来创始人、董事长李斌在今年3月的“共话江城”活动中曾透露，第二代NIOPhone的研发已经完成，并已进入生产阶段。蔚来每年计划推出一款新手机，以确保产品的质量和用户体验。
站长网2024-07-22 17:41:52
0000
站长资讯
公众号粉丝8500，变现100万。
各位村民好，我是村长。公众号粉丝越少，才越赚钱。当我提出这个观点的时候，绝大多数人都会反对，因为这和大家的常识是违背的。但只有真正实操过的人，才知道，粉丝量不等于变现力。今天我想以我实际的经验和大家一起来分享一下，也鼓励大家开始写作。01公众号涨粉慢很正常公众号早就过了野蛮生长期，所以现在对于许多创作者来说，涨粉慢是一件很痛苦的事情。
站长网2023-04-26 09:05:24
0001
站长资讯
英国筹款平台JustGiving 提供生成式AI创建筹款页面
本文概要:1.JustGiving将提供生成式人工智能技术，帮助人们更快地创建筹款页面和分享个人故事。2.撰写个人故事是筹款页面的关键部分，使用清晰故事的页面筹集的资金比不使用的高出65%。3.人工智能服务是可选的，不想使用的筹款人可以选择不使用。英国筹款平台JustGiving将引入生成式人工智能技术，以帮助筹款者更快速地创建筹款页面和分享个人故事。
站长网2023-08-22 14:33:49
0000
站长资讯
最低9美元/月！Stability AI推Stable Assistant 可用SD3生成图片
划重点:🤖StableAssistant是由StabilityAI开发的友善聊天机器人，搭载了StabilityAI的文本和图像生成技术，包括StableDiffusion3和StableLM212B。💬StableAssistant支持使用SD3生成图片、通过文字编辑图片、生成式填充图片、提升分辨率、生成视频、去除背景、线稿转图片、改变画风等。
站长网2024-05-27 19:35:51
0001
站长资讯
iOS17.2为 iPhone15Pro 的操作按钮添加翻译功能
苹果最近发布了iOS17.2更新，为iPhone15Pro系列的操作按钮添加了新的翻译功能。这个功能允许用户将翻译任务分配给操作按钮。当按下操作按钮时，它将启动翻译应用程序的对话模式，无需离开当前应用程序。这极大地简化了在不同语言之间快速翻译短语或进行对话的过程。
站长网2023-10-27 09:46:57
0000