谷歌发布 “Vlogger” 视频模型框架:单张图片生成 10 秒视频
站长网2024-03-20 15:23:182阅
划重点:
⭐️ 谷歌发布新视频框架 “Vlogger”,可以通过单张图片和录音生成本人演讲视频。
⭐️ Vlogger 模型基于扩散模型,包含音频到人体动作和文本到图像模型。
⭐️ Vlogger 具备多样性和自然性,可应用于视频编辑和翻译等领域。
谷歌最近发布了一项名为 “Vlogger” 的新视频框架,可以通过仅一张图片和录音即可生成一个本人演讲视频。
这一框架基于扩散模型,包含音频到人体动作和文本到图像模型两部分。其中,音频波形被用来生成人物的身体控制动作,包括眼神、表情、手势等,使生成的视频看起来自然且生动。该模型训练在一个包含80万个人物视频的大型数据集上完成。
Vlogger 的突出之处在于其多样性和完整性。与其他方法相比,Vlogger 不需要对每个人进行训练,也不依赖于面部检测和裁剪,生成的视频包括面部、唇部和肢体动作等。此外,Vlogger 还具有视频编辑和翻译等应用,能够让人物闭嘴、闭眼,甚至进行视频翻译。
虽然谷歌尚未发布具体模型,但通过展示效果和论文,可以看到 Vlogger 在视频生成领域的潜力和优势。然而,一些网友对其生成视频的画质、口型对不上等问题提出了质疑和吐槽。尽管如此,Vlogger 的发布仍引起了业界的广泛关注和讨论。
谷歌发布的 Vlogger 模型为视频生成领域带来了新的可能性,具备多样性和自然性,为视频编辑和翻译等应用提供了新的解决方案。随着技术的不断进步和完善,相信 Vlogger 将在未来有更广泛的应用和发展。
产品入口:https://top.aibase.com/tool/vlogger
0002
评论列表
共(0)条相关推荐
OpenAI CEO与三星、SK高管会面 探讨AI芯片相关合作
OpenAI的首席执行官SamAltman前往韩国,与三星电子和SK集团的高层会面,探讨建立一个AI半导体联盟和投资机会的可能性。据ETnews报道,Altman参观了三星半导体在韩国平泽的工厂,并与两家公司的高管进行了交流。Altman称正在寻求制造自己的AI芯片的计划。这一计划尚未得到官方确认,但Altman最近表示担心现有的和可能增长的AI系统开发和部署所需的芯片短缺问题。站长网2024-01-30 09:14:590000OpenAI对ChatGPT、API生成的图片,嵌入C2PA元数据
2月7日凌晨,OpenAI在社交平台宣布,对ChatGPT和API生成的图片,现在已经嵌入了C2PA的元数据,以防止图片被非法乱用。C2PA是一种开放数据标准,允许出版商、企业、开发者等,通过元数据来跟踪和验证数字内容,例如,图片、视频、文档等,最初来源、真实性和完整性。站长网2024-02-07 09:00:330000小杨哥消失,李佳琦喊“难”,头部主播618众生相
2024年的618,大促氛围不变,情绪却变了几分。淘宝天猫率先取消了延用12年的电商“预售”模式,京东、抖音和快手等平台纷纷跟上。去年618,各个平台不约而同用“低价好货”吸引消费者,今年618,简单的“直给”替代了预售,平台的一举一动似乎都在暗示618的套路变少,回归“用户逻辑”,围绕用户的消费体验做功课。除了统一取消预售,各个平台也有自己的小心思。站长网2024-05-24 15:46:200000二次元最大骗局:为爱付费
二次元在今年的溃败,至今还没看到头。在前几年,提起二次元,就一定会说到「为爱付费」。这四个字吸引了大量厂商和团队入局,在当时人们的理解中,只要为用户提供好的内容,其他方面都是次要的。但现在,只要你点开任何一款新产品的评论区,看到用户们讨论最多的,不是角色的数值,就是抽卡的定价。即使这些产品们用上了比以前更好的美术、更好的技术,也开始尝试提升叙事的水准,但玩家似乎也已经不太在乎了。站长网2023-10-26 12:11:160000门票炒到60000元,周杰伦演唱会的黄牛“集体退票”,但钱没少赚?
10月12日,为期四天的周杰伦上海站演唱会正式开唱。这原本是杰迷们最翘首以盼的时刻,但有一些早早买了票、定好了行程的粉丝,却没能如愿到场。就在演唱会前一天,大批黄牛集体退票的消息登上热搜。有卖家表示,主办方原定的给录入信息如今不兑现,因此都在退单。但这套说辞并没有得到所有粉丝的认可,在微博、豆瓣、小红书等社交平台,有不少粉丝提出,“不过是看价格炒起来了,想要多赚一笔。”站长网2023-10-13 17:10:110000