19923

EMO同款？谷歌推对口型视频工具VLOGGER 还具备视频编辑功能

站长网2024-03-14 15:36:022阅

科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后，Google也推出了类似的项目VLOGGER。这项技术基于文本和驱动音频，能够从单张照片生成会说话的人类视频。

项目地址：https://top.aibase.com/tool/vlogger

论文地址：https://arxiv.org/pdf/2403.08764.pdf

VLOGGER的独特之处在于:

不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型，大大降低了数据需求。

不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。

生成完整的图像（而不仅仅是面部或嘴唇）。这为生成更自然、更真实的视频提供了可能。

考虑了一系列广泛的场景（例如，可见的躯干或多样化的身份特征），这对于正确合成交流的人类至关重要。

然而，尽管VLOGGER在技术上有其独特之处，但根据演示视频来看，其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。

除了生成新的视频，VLOGGER还具有编辑现有视频的能力。例如，它可以改变主题的表情，或者调整嘴巴和眼睛的闭合状态，从而改变视频的情绪和信息传递。

在视频翻译方面，VLOGGER也可以取一个特定语言的现有视频，并编辑唇部和面部区域以适应新的音频。例如，可以将一段英语视频的唇部和面部区域编辑，使其看起来像是在说西班牙语。

总的来说，VLOGGER是Google在人工智能领域的又一重要突破，它展示了从单张照片生成会说话的人类视频的可能性，同时也提供了视频编辑和翻译的新工具。然而，与阿里巴巴的EMO相比，VLOGGER在视频生成的效果上还有待提升。

EMO同款谷歌推对口型视频工具VLOGGER还具备视频编辑功能

0002

评论列表

共(0)条

相关推荐

站长资讯
HuggingFace发布开源极简Rust ML框架运行速度极快
HuggingFace最近发布了一款新颖的小型RustML框架——candle，运行速度极快，支持多种强大模型。它提供了对GPU的支持，并且具有优化的CPU后端，可以在浏览器中运行。Candle还包含了多个预训练模型和示例，如语音识别模型、通用LLM、计算机视觉模型等。项目地址:https://github.com/huggingface/candle
站长网2023-08-24 11:43:59
0008
站长资讯
微软测试 Windows 11 应用商店的 AI 中心
据theverge消息，在今年早些时候在MicrosoftStore展示了一个人工智能中心之后，如今它终于在Windows11的内测版本（25905）中向Insiders推出了。这个内置的人工智能中心将突出展示来自第三方开发者和微软的一系列精选人工智能应用。
站长网2023-07-13 23:56:23
0000
站长资讯
GPT-4变笨引爆舆论！文本代码质量都下降，OpenAI刚刚回应了降本减料质疑
大模型天花板GPT-4，它是不是……变笨了?先是少数用户提出质疑，随后大量网友表示自己也注意到了，还贴出不少证据。有人反馈，把GPT-4的3小时25条对话额度一口气用完了，都没解决自己的代码问题。无奈切换到GPT-3.5，反倒解决了。总结下大家的反馈，最主要的几种表现有:以前GPT-4能写对的代码，现在满是Bug回答问题的深度和分析变少了响应速度比以前快了
站长网2023-06-03 10:46:28
0000
站长资讯
AI初创公司新旦智能完成千万级别天使轮融资用于发展 xDAN 模型
「新旦智能」是一家新兴的人工智能初创公司，最近完成了千万级的天使轮融资。这轮融资是由全球化人工智能企业APUS和AI行业资深投资人周弘扬联合投资的。融资资金将用于进一步发展他们的xDAN模型，这个模型具有独特的高情商和强大的推理能力，旨在打造新一代AI原生产品，构建个性化的多模态智能体，为用户提供专属的智能服务体验。
站长网2024-03-09 17:01:52
0000
站长资讯
免费版妙鸭？智能写真生成插件EasyPhoto：5张照片即可训练模型
随着StableDiffusion模型的普及，各种基于该模型的创意应用也层出不穷。近日，FaceChain开发团队推出了一款名为EasyPhoto的StableDiffusion插件，实现了快速智能写真生成的功能。项目地址:https://github.com/aigc-apps/sd-webui-EasyPhoto
站长网2023-09-11 15:43:27
0000