EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频
由微软亚洲研究院开发的VASA-1项目,是一项前沿的人工智能技术,它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步,还能够捕捉并再现丰富的面部表情和自然的头部动作,极大地增强了生成视频的真实感和生动性。
主要功能与特点:
逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频,包括精确的唇部运动同步和复杂的面部表情及头部动作。
高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动,这些都是人类交流中常见的非语言行为。
实时视频生成: 利用NVIDIA RTX4090GPU,VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频,以及在线流模式下的40fps生成速度,前置延迟仅为170毫秒,适合实时应用。
泛化能力: 模型展现出强大的适应能力,即使面对与训练数据不同的音频或图像,如不同的语言或非常规的艺术照片,也能够有效工作。
支持多种语言: VASA-1不仅支持中文,还能处理多种语言的语音输入,甚至能够生成唱歌的动画。
解耦能力: 模型能够独立处理和控制人脸的不同动态特征,如嘴唇运动、表情、眼睛注视方向等,提供了高度的解耦和可控性。
生成的可控性: 通过引入条件信号,如眼睛注视方向、头部距离和情绪偏移,VASA-1增强了视频生成的可控性,允许更精细的调整和个性化的动画输出。
技术原理:
VASA-1项目利用了一系列先进的计算机视觉和机器学习技术,包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。
案例与资源:
微软亚洲研究院提供了VASA-1的项目演示和相关论文,以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像,除了蒙娜丽莎外,都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。
项目地址:https://top.aibase.com/tool/vasa-1
论文地址:https://arxiv.org/abs/2404.10667
报告:Real Car Driving: Race City 3D位列10月游戏下载榜榜首
SensorTower商店情报数据显示,BotanicaGlobal《RealCarDriving:RaceCity3D》以超过1900万次下载,位列10月全球移动游戏下载榜榜首。印度是该游戏第一大市场,贡献了26.4%的下载量;其次是巴西和墨西哥市场,分别占12%和7%。站长网2023-11-28 15:24:140000印度一名 CEO 因选择人工智能机器人而不是人类员工而受到批评
印度一名首席执行官因表示其公司已经用人工智能(AI)聊天机器人取代了90%的支持人员而受到批评。Dukaan的创始人SuumitShah在Twitter上表示,聊天机器人大大提高了客户问题的首次响应和解决时间。这条推文引发了网上的愤慨。此时,关于AI夺走人们的工作,尤其是在服务行业,已经引发了很多讨论和担忧。站长网2023-07-14 09:50:370000暴雪内部推行AI:快速生成游戏美术概念图
快科技6月4日消息,近日,据外媒报道消息,暴雪在内部推出了一款名为BlizzardDiffusion”的生成式图形工具。据悉,这款软件使用了暴雪旗下的游戏内容进行训练,能够快速生成如《魔兽世界》、《暗黑破坏神》等类型游戏的美术概念图。暴雪的联合创始人阿伦亚德翰在一封内部邮件中介绍了这款软件。站长网2023-06-05 19:28:240000RTX 4090国内下架 英伟达不卖单卡后:国外也开始涨价!
快科技11月18日消息,据英伟达官网显示,他们已将RTX4090系列显卡的产品信息,从简体中文官网移除。随后,国外零售平台开始出现了RTX4090涨价的事情,从零售商的具体价格来看,新蛋最便宜的型号是RTX4090TrinityOC,售价为1899美元。站长网2023-11-18 10:57:270000微软 Bing AI 聊天开始支持谷歌 Chrome 和苹果 Safari 等第三方浏览器:正针对「特定用户」进行测试
微软的人工智能聊天机器人BingChat今天确认将支持非微软浏览器,此前有各种报道称该人工智能聊天机器人出现在谷歌Chrome和苹果Safari等其他浏览器中。这一扩展将使微软类似于ChatGPT的AI聊天机器人可供更广泛的用户使用,此前它仅在微软产品内对消费者开放,例如Bing移动应用程序和MicrosoftEdge浏览器。站长网2023-07-25 16:18:420002