阿里推AtomoVideo文本+图片生视频模型,媲美Gen-2和Pika
划重点:
1. 🌐 AtomoVideo介绍:阿里技术团队推出的文本 图片生成高保真视频模型,通过简单的文本提示和高清图片即可生成逼真高清视频。
2. 🚀 技术创新:AtomoVideo融合多粒度图片注入和时间建模,利用VAE编码器和CLIP编码器提高细节信息和文本语义的一致性,同时在时间维度上进行创新以学习时序动态模式。
3. 📊 评测数据:经深度比较,AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等多个评估维度上超越开源模型VideoCrafter、I2VGEN-XL、SVD,媲美商业模型Gen-2和Pika。
阿里巴巴集团近期推出了一款引人瞩目的视频生成模型,命名为AtomoVideo。该模型以文本和图片为输入,能够高效生成高保真视频,与商业模型Gen-2和Pika相媲美。
AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。据评测数据显示,AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等方面超过了多个开源模型,表现出色。
该模型的技术创新主要体现在多个方面。首先,AtomoVideo使用了预训练的Stable Diffusion1.5作为基础模型,并在每个空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。其次,模型融合了多粒度图片注入和时间建模,通过VAE编码器处理输入图片,得到细粒度的图片潜在表征,并与高斯噪声拼接在一起作为UNet的输入。此外,AtomoVideo还利用CLIP编码器进行高层语义表征,通过交叉注意力注入到UNet中,使模型能够同时捕捉到图片的细节信息和文本语义提示,提高生成视频与原始图片的一致性。
在时间维度上,AtomoVideo引入了一维时间卷积和时间注意力模块,在UNet的每一个空间卷积和注意力层之后,赋予了模型学习时序动态模式的能力。除了图片生成视频,该模型还可用于其他视频相关任务,如给定视频的前几帧,对剩余未知帧进行视频扩展预测,为视频添加无缝延续的新内容;基于上下文帧,自动修复受损帧或插值缺失帧,实现自动修复损坏的视频。
在训练阶段,研究人员采用了零终端信噪比和v-预测等策略,显著提升了生成视频的稳定性,无需依赖于噪声先验。通过最小化零终端信噪比来优化模型,在生成过程中更好地控制生成视频的稳定性和质量,以及对生成的细节和一致性的精准掌控。此外,固定了预训练的文本到图片模型的权重,仅训练新添加的时序层和输入层参数,使得AtomoVideo能够无缝集成到目前流行的个性化文生图模型、可控生成模型等,进一步扩展了其应用场景。
为了评估AtomoVideo的性能,研究人员在AIGCBench测试集上与多个开源模型和商业模型进行了深度比较,结果显示AtomoVideo在多个评估维度上表现卓越,尤其在保持较大运动强度的同时实现了优异的时间稳定性。这一创新性的视频生成模型将为AIGC领域带来更多可能性,引领视频生成技术的发展。
论文地址:https://arxiv.org/abs/2403.01800
项目入口地址:https://top.aibase.com/tool/atomovideo
超实用的10个最新AI工具汇总!建议收藏
随着AI大模型不断更新迭代,AI应用也来爆炸式增长。在国内外各类已发布的AI工具中,“头号AI玩家”精选了10款近期新上线的、实用的AI工具,涵盖AI聊天、文案写作、图像生成、视频分析、智能办公等领域,建议收藏再看?AgentGPTAutoGPT网页版站长网2023-04-21 16:50:190003为什么比尔盖茨说人工智能将推动医疗创新?
划重点:🔍比尔・盖茨认为人工智能将在全球卫生领域发挥重要作用,帮助改善医疗服务,尤其在抗击抗生素耐药性、高危妊娠、HIV风险评估和快速获取医疗记录等方面。🔍比尔・盖茨对AI的发展前景持乐观态度,认为AI将在教育领域发挥重要作用,提供个性化教育工具,同时也关注气候变化和核能问题。🔍比尔・盖茨从AI怀疑者转变为AI的支持者,积极参与AI技术的发展和应用。0000《普通人用AI创作爆款内容指南》
AIGC创作的风潮已经席卷内容领域的各个角落。一边是ChatGPT、Midjourney等明星产品的走红、大量AI创业公司如雨后春笋般涌现,另一边,与AI有关的内容创作也呈现出爆发式增长。需要先说明,这里的AI有关创作,指的是用AI创作爆款内容,或者围绕AI话题创作有趣的内容。站长网2023-07-04 15:58:150000戴尔发布生成式AI工具 提供预训练模型
划重点:戴尔发布生成式AI工具,名为DellValidatedDesignforGenerativeAIwithNVIDIAforModelCustomization,可从数据中提取智能,避免从头构建模型。该工具提供了预训练模型,帮助用户根据需要定制和微调生成式AI模型,同时确保信息安全。站长网2023-10-16 23:51:150000AMD副总裁,搭载人工智能的电脑将很快理解用户需求
本文概要:-AMD副总裁JasonBanta表示,将人工智能整合到电脑中将使其更个性化、更安全,并更好地理解用户需求。-Banta预测到2024年将有更多搭载人工智能的笔记本电脑问世,而2025年将迎来“重大转折点”,届时人工智能将使电脑更个性化、更安全,并更好地理解用户需求。-预计从云端人工智能应用将转向在电脑上实时运行的小型模型,并可在本地进行训练。0000