EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能
站长网2024-03-14 15:36:022阅
科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目VLOGGER。这项技术基于文本和驱动音频,能够从单张照片生成会说话的人类视频。
项目地址:https://top.aibase.com/tool/vlogger
论文地址:https://arxiv.org/pdf/2403.08764.pdf
VLOGGER的独特之处在于:
不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型,大大降低了数据需求。
不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。
生成完整的图像(而不仅仅是面部或嘴唇)。这为生成更自然、更真实的视频提供了可能。
考虑了一系列广泛的场景(例如,可见的躯干或多样化的身份特征),这对于正确合成交流的人类至关重要。
然而,尽管VLOGGER在技术上有其独特之处,但根据演示视频来看,其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。
除了生成新的视频,VLOGGER还具有编辑现有视频的能力。例如,它可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。
在视频翻译方面,VLOGGER也可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频。例如,可以将一段英语视频的唇部和面部区域编辑,使其看起来像是在说西班牙语。
总的来说,VLOGGER是Google在人工智能领域的又一重要突破,它展示了从单张照片生成会说话的人类视频的可能性,同时也提供了视频编辑和翻译的新工具。然而,与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。
0002
评论列表
共(0)条相关推荐
Reddit要收取API访问费,盯着AI厂商来薅羊毛
进入2023年后,或许已经鲜少有网友还没听过ChatGPT这个大名。这一继元宇宙之后出现的“新浪潮”,俨然已经成为了今年科技圈的风口,包括海外市场的微软、谷歌、亚马逊,以及国内的百度、阿里、腾讯、字节跳动在内,几乎但凡有一定技术实力的科技厂商也悉数下场,即便是技术力不够的厂商也是八仙过海各显神通,有诸如知乎这样联手合作伙伴的,也有像“美国贴吧”Reddit这样“卖资源”的。站长网2023-05-02 09:31:500000小游戏重回买量主场
本月初吉比特的临时股东大会上,董事长兼总经理卢竑岩在讨论环节发表了这样一个观点,“根据以往的趋势,我认为小游戏的市场规模可能会超越App的市场规模,但是我没有具体数据支持这一观点,只能说是类似于PC游戏的市场规模超越主机游戏市场规模的情况。”站长网2023-09-28 14:14:400000斯坦福开发机器人学习框架UMI 可直接复制人类操作给机器人
UMI是斯坦福开发的一个机器人数据收集和策略学习框架,通过手持式夹持器和精心设计的接口进行数据收集。该框架能够将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务。UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。站长网2024-02-22 17:20:110003支付宝推出“12.12支付宝生活节” 准备派发12亿红包
近日,支付宝推出12.12生活节促销活动,从12月1日起至12月12日,在支付宝平台线上线下实现“消费省钱”。用户可通过扫描商家“赚钱红包”二维码领取现金红包,还可在支付宝App上领取更多购物和生活福利。0000腾讯等头部厂商创新力不足,游戏行业没等来2023春天
晚春已经有些抵挡不住热浪,但是国内游戏行业的春天还没到来,尤其是这个新老游戏青黄不接的断档期。据EsportsCharts网站数据,在三月份所有电子竞技项目中,《无畏契约》是三月份最受关注的电子竞技比赛,《无畏契约》的总决赛FNATICvsLOUD观众峰值达到了144万。与之相对,英雄联盟LCK春季常规赛KTvsT1的热度位列第三。Dota2的利马Major则只有接近50w的热度。站长网2023-04-17 09:22:340001