李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T

站长网2023-12-12 14:17:470阅

要点:

谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T，在图像和视频生成领域取得了媲美Gen-2的逼真效果。

W.A.L.T采用因果编码器和基于窗口注意的变压器架构，将图像和视频压缩到共享潜在空间，实现联合训练和生成，为自然语言提示生成逼真且时间一致的视频。

通过两个关键决策，W.A.L.T成功解决了视频生成建模难题，采用潜在视频扩散模型，利用Transformer处理潜在空间，实现了在多个基准测试上的SOTA性能。

近日，谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T，标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构，成功将图像和视频压缩到一个共享的潜在空间，实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA，还展示了在文本到视频生成任务中的卓越性能。

论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

W.A.L.T的两个关键决策使其在视频生成建模中脱颖而出。首先，因果编码器用于在统一的潜在空间内联合压缩图像和视频，实现了跨模态的训练和生成。其次，基于窗口注意的变压器架构提高了记忆和训练效率，使得模型能够生成逼真且时间一致的视频，响应自然语言提示如"一只泰迪熊在时代广场上优雅的滑冰"。

该模型的突破性在于解决了视频生成建模的难题。传统方法主要采用U-Net架构，而W.A.L.T则采用潜在视频扩散模型，通过在低维潜在空间中运行自动编码器，降低了计算需求。这一设计选择不仅优化了网络复杂性，还让Transformer在视频生成领域表现出卓越的质量和参数效率。

W.A.L.T的出现标志着视频生成进入一个新的时代，突破了传统模型的限制，为AI视频技术带来了更为广阔的发展空间。李飞飞与谷歌的合作成果彰显了Transformer在不同领域的广泛适用性，为模型设计创新和改进带来了新的契机。在视频生成建模方面，W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点，为学术界和工业界提供了有力的参考和启示。

李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型WA L T

0000

评论列表

共(0)条

相关推荐

Meta AI 发布 MMCSG数据集：使用 Project Aria 捕获的 25 小时以上的双向对话
划重点:-💡CHiME-8MMCSG任务专注于通过智能眼镜录制的对话转录挑战，旨在帮助研究人员解决活动检测和说话者分离等问题。-💡提出的模型利用多模态数据集MSCSG数据集，包括音频、视频和IMU信号，以提高转录准确性。-💡通过整合各种技术来改善实时对话的转录准确性，包括目标说话者识别/定位、说话者活动检测、语音增强、语音识别和对话。
站长网站长资讯2024-03-02 13:10:10
0000
站长资讯
日本将开发更强日语能力的“大语言模型”人工智能技术
据共同社消息，日本东北大学和日本东京工业大学等团队计划开发一种更强日语能力的“大语言模型”，作为生成式人工智能（AI）的基础技术。该团队将利用理化学研究所的超级计算机“富岳”学习大量数据，并将在本年度内逐步公开。这一技术的开发将使国内企业和研究人员能够为自己的公司的服务或研究而自行改良。生成式AI可以按照用户的要求生成文章、图像、音频等。
站长网2023-05-23 11:05:59
0000
站长资讯
Perplexity 推出免费「深度研究」功能：全面对标 OpenAI Deep Research！
Perplexity已成为最新发布深入研究工具的AI公司，并于当地时间周五宣布了一项新功能。图片来自Perplexity谷歌在12月为其GeminiAI平台发布了类似功能。随后，OpenAI本月早些时候也推出了自己的研究代理。这三家公司甚至给该功能起了相同的名字：DeepResearch（深度研究）。
站长网2025-02-16 10:56:17
0000
站长资讯
9块9特卖，上线淘宝首页
文|王崭淘宝的首页悄悄改了版。在一些消费者的手机上，淘宝首页第一屏的聚划算被一个名为“99特卖”的板块取代，主打便宜划算还包邮。一位近淘宝相关人士表示，99特卖频道可以理解为之前天天特卖的升级，正在从一个需要搜索的隐藏入口变成了首页频道入口，预计将在本月底全面上线。
站长网2023-04-25 12:08:53
0000
站长资讯
iQOO Pad2 系列平板将于 5 月 31 日预售
站长之家（ChinaZ.com）5月20日消息:iQOO今日正式宣布，其全新的Pad2系列平板已经开放预约，将于5月31日晚20点正式预售。iQOOPad2系列的外观设计也同样引人关注。产品背面采用了圆形相机模组设计，与vivoPad3Pro的外观有着异曲同工之妙。而在配色方面，iQOOPad2/Pro提供了蓝霆、银翼、灰晶三款经典配色供消费者选择。
站长网2024-05-20 12:52:12
0000