微软亚洲研究院推出NUWA-XL超长视频生成模型
站长网2023-04-20 11:16:452阅
你相信吗?只要输入16句简单描述,AI就能生成11分钟的动画了。
近日,微软亚洲研究院推出了NUWA-XL超长视频生成模型,采用创新的Diffusion over Diffusion架构,通过「从粗到细」的生成过程,可以并行生成高质量的超长视频,为多模态大模型提供了新的解题思路。
论文地址:https://arxiv.org/abs/2303.12346
NUWA-XL「从粗到细」的生成方法具有三个优势:
分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。
模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。
由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。
目前,长视频生成的多数方法是采用「Autoregressive over X」架构,这种方法存在训练-推理差距的问题,导致不真实的、扭曲的镜头变化。
NUWA-XL的推出填补了长视频生成领域的空白,为人工智能在视频生成方面的应用提供了新的可能性。
微软亚洲研究院首席研究员段楠表示,目前人工智能多模态大模型的研发仍停留在文字生成阶段。即使GPT-4已经在理解方面加入了视觉信息,但仅限于图片,输出依旧是文字或代码。因此,当前和未来的研究方向非常明确,就是将语言和视觉的理解和生成融入到一个基础大模型中,以增强图像、视频和音频的生成。他希望未来可以使用一套结构来融合支持语言和视觉的生成算法,使人工智能模型更加通用。
0002
评论列表
共(0)条相关推荐
一条视频获赞935万,短视频卷起了高级感
9月抖音涨粉榜已出,我们一起来看榜:受花西子事件影响,国货品牌在9月迎来了声势浩大的翻红热潮。凭借着玩梗、发疯、整活、卖惨、产品促销等一系列“商战”手段,不少国货品牌借此迎来了粉丝量和销售额的双重增长。站长网2023-10-12 09:04:550000又一款AI写真软件刷屏!“妙鸭”们卷起来了,谁能胜出?
妙鸭相机爆火出圈后,乘着真人电影《芭比》上映的热度,这几天,一款可以生成芭比写真的小程序“45AI”走红社交媒体,圆了数万网友的芭比公主梦。跟妙鸭相机的玩法类似,用户只要上传9至15张清晰的正、侧面照,支付9.9元,即可获得一组AI生成的写真。45AI的用户增长也依赖网友的社交媒体分享和社交裂变传播,且付费用户可以将自己的邀请码分享给3个人免费体验。站长网2023-07-31 15:25:2300032023胡润百富榜发布:钟睒睒第一 马化腾第二
2023年10月24日,胡润研究院发布了最新的胡润百富榜。今年的榜单上,共有1241位个人财富超过50亿元人民币的企业家上榜,较去年减少了5%(64人)。上榜企业家的总财富也比去年下降了4%(1万亿),至23.5万亿元。此外,千亿级企业家减少至30人,十亿美金级企业家减少至895人。站长网2023-10-25 00:32:370000现在的AI公司们,已经在把用户当“数据提款机”了。
最近,AI公司跟用户之间的冲突与矛盾,变的越来越多越来越大了。因为一个大家可能从来不看的东西:用户协议。最近X(也就是以前的推特)和马斯克,就被这玩意,推上了风口浪尖。原因是,X被发现“光明正大”的拿用户的帖子来训练GrokAI。就是马斯克自己搞的那个大模型。一些平台,拿用户的数据来训练自己的大模型,讲道理这是一件心照不宣的事情,没有谁能避免的。站长网2024-08-05 14:03:130000Unity中国推出Unity中国版引擎“团结引擎”
Unity中国正式发布了名为“团结引擎”的Unity中国版引擎。据介绍,该引擎已经兼容适配了中国科技生态内的众多软硬件平台。团结引擎目前支持Windows、Mac、Linux操作系统,以及Android、iOS、WebGL、WeixinMiniGame、HMIAndroid、QNX、EmbeddedLinux平台,并即将支持OpenHarmony开源项目和AliOS操作系统。站长网2023-08-24 16:51:300000