EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能
站长网2024-03-14 15:36:022阅
科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目VLOGGER。这项技术基于文本和驱动音频,能够从单张照片生成会说话的人类视频。
项目地址:https://top.aibase.com/tool/vlogger
论文地址:https://arxiv.org/pdf/2403.08764.pdf
VLOGGER的独特之处在于:
不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型,大大降低了数据需求。
不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。
生成完整的图像(而不仅仅是面部或嘴唇)。这为生成更自然、更真实的视频提供了可能。
考虑了一系列广泛的场景(例如,可见的躯干或多样化的身份特征),这对于正确合成交流的人类至关重要。
然而,尽管VLOGGER在技术上有其独特之处,但根据演示视频来看,其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。
除了生成新的视频,VLOGGER还具有编辑现有视频的能力。例如,它可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。
在视频翻译方面,VLOGGER也可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频。例如,可以将一段英语视频的唇部和面部区域编辑,使其看起来像是在说西班牙语。
总的来说,VLOGGER是Google在人工智能领域的又一重要突破,它展示了从单张照片生成会说话的人类视频的可能性,同时也提供了视频编辑和翻译的新工具。然而,与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。
0002
评论列表
共(0)条相关推荐
把抖音当成朋友圈,她一条视频涨粉100W+
抖音2月涨粉榜已出,我们先来看榜:与1月还出现了两个千万级账号的“盛况”有所不同,2月抖音内容生态明显“沉闷”许多:位列前两位的均是在1月涨粉榜中就凭借新春主题活动拉动用户关注的品牌账号,分别是月增粉480.4W的@网易蛋仔派对和月增粉389W的@中国联通官方旗舰店。这两个账号之外,涨粉量在200W-300W的账号还有7个,其余11个账号的涨粉量则均在100W-200W之间。站长网2024-03-19 19:48:100000英国最高法院裁定:人工智能不能成为专利申请的「发明人」
站长之家(ChinaZ.com)12月21日消息:英国最高法院于周三裁定,人工智能(AI)不能被列为专利申请的发明者,这一决定随着AI工具的广泛使用可能会产生重大影响。这起案件起源于StephenThaler在2018年提交的两项专利申请,一项涉及食品包装形状,另一项涉及一种闪光灯类型。0000英伟达收购人工智能初创公司 OmniML 押注边缘 AI
英伟达在今年2月悄悄收购了人工智能初创公司OmniML。OmniML的技术可以将机器学习模型小型化,使其能够在边缘设备上运行,而不依赖云端。一位发言人以及前OmniML员工的LinkedIn个人资料,他们现在都加入了英伟达。站长网2023-07-05 10:22:090001NCSoft将推出系列AI语言模型VARCO 提高游戏开发效率
韩国的互动娱乐软件公司NCSoft宣布将推出一组名为VARCO的人工智能语言模型LLM,它由四种语言模型以及由这些语言模型提供支持的生成式人工智能服务组成。具体来说,VARCO提供的三项生成式人工智能服务旨在提高游戏开发效率。据该公司介绍,VARCO是“ViaAI,RealizeyourCreativityandOriginality”的缩写。站长网2023-08-17 14:50:210001OpenAI多模态AI系统GPT-Vision即将推出 与谷歌Gemini竞争
据TheInformation报道,知情人士透露,鉴于谷歌上周开始向部分企业测试其多模态大模型Gemini,OpenAI希望抢占先机,推出自己的多模态AI系统。OpenAI在3月份推出语言模型GPT-4时曾预览了多模态功能,但至今仅向为盲人提供服务的BeMyEyes公司开放。六个月过后,OpenAI准备大范围推出这款名为GPT-Vision的多模态系统。站长网2023-09-19 15:10:140000