阿里推AtomoVideo文本+图片生视频模型,媲美Gen-2和Pika
划重点:
1. 🌐 AtomoVideo介绍:阿里技术团队推出的文本 图片生成高保真视频模型,通过简单的文本提示和高清图片即可生成逼真高清视频。
2. 🚀 技术创新:AtomoVideo融合多粒度图片注入和时间建模,利用VAE编码器和CLIP编码器提高细节信息和文本语义的一致性,同时在时间维度上进行创新以学习时序动态模式。
3. 📊 评测数据:经深度比较,AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等多个评估维度上超越开源模型VideoCrafter、I2VGEN-XL、SVD,媲美商业模型Gen-2和Pika。
阿里巴巴集团近期推出了一款引人瞩目的视频生成模型,命名为AtomoVideo。该模型以文本和图片为输入,能够高效生成高保真视频,与商业模型Gen-2和Pika相媲美。
AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。据评测数据显示,AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等方面超过了多个开源模型,表现出色。
该模型的技术创新主要体现在多个方面。首先,AtomoVideo使用了预训练的Stable Diffusion1.5作为基础模型,并在每个空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。其次,模型融合了多粒度图片注入和时间建模,通过VAE编码器处理输入图片,得到细粒度的图片潜在表征,并与高斯噪声拼接在一起作为UNet的输入。此外,AtomoVideo还利用CLIP编码器进行高层语义表征,通过交叉注意力注入到UNet中,使模型能够同时捕捉到图片的细节信息和文本语义提示,提高生成视频与原始图片的一致性。
在时间维度上,AtomoVideo引入了一维时间卷积和时间注意力模块,在UNet的每一个空间卷积和注意力层之后,赋予了模型学习时序动态模式的能力。除了图片生成视频,该模型还可用于其他视频相关任务,如给定视频的前几帧,对剩余未知帧进行视频扩展预测,为视频添加无缝延续的新内容;基于上下文帧,自动修复受损帧或插值缺失帧,实现自动修复损坏的视频。
在训练阶段,研究人员采用了零终端信噪比和v-预测等策略,显著提升了生成视频的稳定性,无需依赖于噪声先验。通过最小化零终端信噪比来优化模型,在生成过程中更好地控制生成视频的稳定性和质量,以及对生成的细节和一致性的精准掌控。此外,固定了预训练的文本到图片模型的权重,仅训练新添加的时序层和输入层参数,使得AtomoVideo能够无缝集成到目前流行的个性化文生图模型、可控生成模型等,进一步扩展了其应用场景。
为了评估AtomoVideo的性能,研究人员在AIGCBench测试集上与多个开源模型和商业模型进行了深度比较,结果显示AtomoVideo在多个评估维度上表现卓越,尤其在保持较大运动强度的同时实现了优异的时间稳定性。这一创新性的视频生成模型将为AIGC领域带来更多可能性,引领视频生成技术的发展。
论文地址:https://arxiv.org/abs/2403.01800
项目入口地址:https://top.aibase.com/tool/atomovideo
微软计划在澳大利亚投资 32 亿美元以扩展其人工智能和云计算能力
站长之家(ChinaZ.com)10月24日消息:微软公司日前宣布,将在接下来的两年内投资50亿澳元(约合32亿美元)在澳大利亚扩展其人工智能(AI)和云计算能力。此举是该公司一项包括技能培训和网络安全在内的广泛努力的一部分。站长网2023-10-24 23:37:390000度小满与哈工大共建“人工智能(大模型)联合研究中心”
今日,度小满与哈尔滨工业大学宣布共同成立“哈尔滨工业大学-度小满人工智能(大模型)联合研究中心”。双方将围绕大模型基座研发、大模型技术原理及其应用技术等领域展开前沿研究,旨在提升大模型的技术创新能力和实际应用效果。双方还将共同培养生成式人工智能技术领域的领军人才,推动前沿技术的产业化应用加速。站长网2023-06-02 11:58:260006锤子便签iOS版更新v4.0:新增AI写作功能 一年88.8元
快科技5月14日消息,锤子便签iOS版迎来v4.0版本更新,最大的亮点是新增AI写作功能(需要付费使用)。更新内容如下:-新增AI创作功能,包括AI写作、续写、扩写、简写、大纲、头脑风暴和推广文案-新增AI调优功能,包括校正、排版和润色-新增AI总结功能,包括提炼-推出便签会员服务-修复了若干Bug会员价格方面,有四种套餐可选:包月:15元连续包月:9元包季:31.8元站长网2024-05-14 08:49:250000岸田文雄:G7 峰会将讨论 ChatGPT,必须制定国际规则
据共同社消息,日本首相岸田文雄19日表示,七国集团(G7)领导人将在5月G7广岛峰会期间讨论讨论生成性人工智能ChatGPT相关议题,称「必须制定国际规则」。站长网2023-04-20 16:30:150000美团20.6亿收购光年之外,大模型创业是巨头游戏?8位一线从业者这样说
20.6亿!美团昨日在港交所发布公告,宣布以约20.65亿元人民币的价格,完成对大模型创业公司“光年之外”的股权收购。美团收购光年之外的公告,图源:港交所光年之外由美团联合创始人王慧文创立,是目前国内最受瞩目的大模型创业公司之一。4个月前,已经退休的王慧文发布“AI英雄榜”,自带5000万美元高调入局大模型,打响了国内大模型之战。站长网2023-07-04 11:14:400001