登陆注册
19923

EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能

站长网2024-03-14 15:36:022

科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目VLOGGER。这项技术基于文本和驱动音频,能够从单张照片生成会说话的人类视频。

项目地址:https://top.aibase.com/tool/vlogger

论文地址:https://arxiv.org/pdf/2403.08764.pdf

VLOGGER的独特之处在于:

不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型,大大降低了数据需求。

不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。

生成完整的图像(而不仅仅是面部或嘴唇)。这为生成更自然、更真实的视频提供了可能。

考虑了一系列广泛的场景(例如,可见的躯干或多样化的身份特征),这对于正确合成交流的人类至关重要。

然而,尽管VLOGGER在技术上有其独特之处,但根据演示视频来看,其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。

除了生成新的视频,VLOGGER还具有编辑现有视频的能力。例如,它可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。

在视频翻译方面,VLOGGER也可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频。例如,可以将一段英语视频的唇部和面部区域编辑,使其看起来像是在说西班牙语。

总的来说,VLOGGER是Google在人工智能领域的又一重要突破,它展示了从单张照片生成会说话的人类视频的可能性,同时也提供了视频编辑和翻译的新工具。然而,与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。

0002
评论列表
共(0)条