李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T
要点:
谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T,在图像和视频生成领域取得了媲美Gen-2的逼真效果。
W.A.L.T采用因果编码器和基于窗口注意的变压器架构,将图像和视频压缩到共享潜在空间,实现联合训练和生成,为自然语言提示生成逼真且时间一致的视频。
通过两个关键决策,W.A.L.T成功解决了视频生成建模难题,采用潜在视频扩散模型,利用Transformer处理潜在空间,实现了在多个基准测试上的SOTA性能。
近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T,标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。
论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
W.A.L.T的两个关键决策使其在视频生成建模中脱颖而出。首先,因果编码器用于在统一的潜在空间内联合压缩图像和视频,实现了跨模态的训练和生成。其次,基于窗口注意的变压器架构提高了记忆和训练效率,使得模型能够生成逼真且时间一致的视频,响应自然语言提示如"一只泰迪熊在时代广场上优雅的滑冰"。
该模型的突破性在于解决了视频生成建模的难题。传统方法主要采用U-Net架构,而W.A.L.T则采用潜在视频扩散模型,通过在低维潜在空间中运行自动编码器,降低了计算需求。这一设计选择不仅优化了网络复杂性,还让Transformer在视频生成领域表现出卓越的质量和参数效率。
W.A.L.T的出现标志着视频生成进入一个新的时代,突破了传统模型的限制,为AI视频技术带来了更为广阔的发展空间。李飞飞与谷歌的合作成果彰显了Transformer在不同领域的广泛适用性,为模型设计创新和改进带来了新的契机。在视频生成建模方面,W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点,为学术界和工业界提供了有力的参考和启示。
消息称新款特斯拉Model 3将9月1日上市:价格定在20万元左右
快科技8月29日消息,特斯拉接下来最为重磅的车型,非新款Model3莫属,近日,综合汽车之家、易车等多家媒体报道,新车将于9月1日上市,而据此前消息,改款Model3或将移除所有雷达,售价进一步降低,定在20万元左右。0000三只羊被立案调查:直播带货月饼翻车 涉嫌误导消费者
合肥高新区市场监督管理局近日发布通报,对三只羊网络科技有限公司在直播带货中销售的“香港美诚月饼”涉嫌误导消费者的行为展开立案调查。该公司在直播中推广的月饼产品引起了公众关注。据媒体报道,三只羊网络科技有限公司及其签约主播在直播过程中销售了一款标称为香港美诚品牌的月饼,提供了99元3盒、169元3盒等多种价格选择。但随后,众多香港消费者表示对该品牌并不熟悉。0000GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!
【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。随着今年秋天的临近,谷歌和OpenAI的多模态模型之战,也进入到白热化阶段。就在上周,谷歌已经对一些外部公司开放了多模态大模型Gemini的功能。站长网2023-09-19 18:23:270000智源研究院开源10亿参数三维视觉通用模型Uni3D
智源研究院最近开源发布了一个10亿参数的三维视觉通用模型Uni3D。该模型是当前最大的三维视觉模型之一,能够处理点云数据,取得了主流三维视觉任务的全方位技术突破,展现出超强的通用视觉能力。站长网2023-10-20 10:21:350000英伟达持续投入智驾业务!原百度Apollo技术负责人加入
快科技2月26日消息,据媒体报道,原百度智能驾驶L2业务的技术负责人之一罗琦,近期已加入英伟达汽车事业部,任工程总监,负责预测、规划与控制。在离职前,其在百度的职级已经达到T9(架构师级)。报道表示,英伟达于2015年开始探索自动驾驶方案研发,与奔驰、捷豹路虎等几个海外车企大客户达成合作意向,但迟迟未能交付完整的解决方案,奔驰一度要求引入其他供应商。0000