李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T
要点:
谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T,在图像和视频生成领域取得了媲美Gen-2的逼真效果。
W.A.L.T采用因果编码器和基于窗口注意的变压器架构,将图像和视频压缩到共享潜在空间,实现联合训练和生成,为自然语言提示生成逼真且时间一致的视频。
通过两个关键决策,W.A.L.T成功解决了视频生成建模难题,采用潜在视频扩散模型,利用Transformer处理潜在空间,实现了在多个基准测试上的SOTA性能。
近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T,标志着2023年成为AI视频元年。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。

论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
W.A.L.T的两个关键决策使其在视频生成建模中脱颖而出。首先,因果编码器用于在统一的潜在空间内联合压缩图像和视频,实现了跨模态的训练和生成。其次,基于窗口注意的变压器架构提高了记忆和训练效率,使得模型能够生成逼真且时间一致的视频,响应自然语言提示如"一只泰迪熊在时代广场上优雅的滑冰"。

该模型的突破性在于解决了视频生成建模的难题。传统方法主要采用U-Net架构,而W.A.L.T则采用潜在视频扩散模型,通过在低维潜在空间中运行自动编码器,降低了计算需求。这一设计选择不仅优化了网络复杂性,还让Transformer在视频生成领域表现出卓越的质量和参数效率。
W.A.L.T的出现标志着视频生成进入一个新的时代,突破了传统模型的限制,为AI视频技术带来了更为广阔的发展空间。李飞飞与谷歌的合作成果彰显了Transformer在不同领域的广泛适用性,为模型设计创新和改进带来了新的契机。在视频生成建模方面,W.A.L.T以其卓越性能和创新性设计成为当前研究的焦点,为学术界和工业界提供了有力的参考和启示。
韩国留学生在中国做博主,单月涨粉300万全靠“已读乱回”?
鸡同鸭讲、文化冲击、呆萌可爱、搞笑美女……当这些元素出现在同一个账号里,会发生什么?“基本祐利”(下文简称祐利)给出的答案是:两个月全网涨粉超500万。祐利是一名在中国上学的韩国留学生,经常在生活中受到文化冲击,呆萌的表情配上“塑料”中文,催生了不少搞笑的名场面:医生问她“平时喜欢侧着睡觉吗”,她秒变空耳大师听成“厕所睡觉”;医生说低头她抬头,按摩师让她往后靠她往前伸;站长网2024-05-25 06:37:100000OpenAI在中国申请“GPT-6”“GPT-7”商标 此前表示GPT5已在训练中
天眼查App显示,近日,欧爱运营有限责任公司(OPENAIOPCO,LLC)申请多枚“GPT-6”“GPT-7”商标,国际分类为科学仪器、网站服务,当前商标状态均为等待实质审查。站长网2023-12-01 17:02:290000网信办:清理涉企虚假不实等信息8.6万余条
今日,国家网信办发布“清朗·优化营商网络环境保护企业合法权益”专项行动查处一批典型案例称,近期,国家网信办深入推进“清朗·优化营商网络环境保护企业合法权益”专项行动,部署指导地方网信办积极受理处置涉企业、企业家的不法信息,督促微信、微博、抖音等网站平台快速核查处置涉企投诉举报。截至目前,重点网站平台清理涉企虚假不实等信息8.6万余条,依法依约处置账号8425个。站长网2023-08-01 10:04:300000试了试MiniMax新出的Al视频模型,发现它生成人物的“演技”吊打内娱
最近刷屏AI圈的大事件,无外乎MiniMax推出了视频生成工具海螺AI。科技博主们对它寄予厚望,纷纷感叹“忘了Sora,MiniMax的视频生成模型已经获得了巨大进步”“中国又出了一个强力竞争对手”“我见过手部动作最自然的模型”……电影制作人们用它开始玩起了短片,赛博科幻风、暗黑恐怖风都没在怕的。短片《APlaceinHell》站长网2024-09-10 16:26:100000字节今年向英伟达订购超10亿美元GPU
据知情人士透露,中国拥有云计算业务的互联网巨头们在今年春节后向英伟达公司下了大量订单。其中,字节公司订购的GPU数量超过10亿美元,包括A100和H800型号,已到货和未到货的都有。而另一家互联网巨头向英伟达下了一个总价值至少超过10亿元人民币的万卡级别订单。仅字节公司今年一个订单的数量就可能接近去年英伟达在中国销售的商用GPU总和。站长网2023-06-15 03:53:090000