19583

阿里巴巴推出高保真图像到视频生成框架AtomoVideo

站长网2024-03-06 11:13:190阅

近日，阿里巴巴在人工智能领域再次取得突破，推出了一款名为AtomoVideo的高保真图像到视频生成框架。这一技术的问世，标志着基于文本到图像生成技术的视频生成领域取得了显著的快速发展。

据官方介绍，AtomoVideo的核心在于其多粒度图像注入技术，这一技术使得生成的视频对于给定的图像具有更高的保真度。这意味着，通过AtomoVideo生成的视频，能够更好地保留原始图像的细节和特征，从而使得生成的视频更加逼真。目前，阿里只发布了AtomoVideo的论文，代码，试玩页面等还未公布。

项目地址：https://huggingface.co/papers/2403.01800

此外，AtomoVideo还得益于高质量的数据集和训练策略，这使得其在保持卓越的时间性的同时，实现了更大的运动强度，一致性和稳定性。这意味着，无论是在动作的连贯性，还是在动作的稳定性上，AtomoVideo都能表现出色。

AtomoVideo的架构也具有很高的灵活性，它可以灵活地扩展到视频帧预测任务，通过迭代生成实现长序列预测。这使得AtomoVideo在处理长序列的视频预测任务时，也能够保持良好的性能。

值得一提的是，由于适配器训练的设计，AtomoVideo可以很好地与现有的个性化模型和可控模块结合。这使得AtomoVideo在实际应用中，可以根据需要进行个性化定制，以满足不同用户的需求。

不过从AK大神发布的演示来看，AtomoVideo生成的视频质量和sora相比差距较大，和SVD相比也有一些差距，希望后续会有更大的提升吧。

阿里巴巴推出高保真图像到视频生成框架AtomoVideo

0000

评论列表

共(0)条

相关推荐

站长资讯
AI视野：Adobe发布视频模型ActAnywhere；SVD将强势升级；新壹视频大模型通过备案；三星Galaxy AI两年内将开启付费
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/🤖📱💼AI应用Adobe发布视频模型ActAnywhere可根据主体运动生成背景【AiBase提要:】😊可根据前景主体运动和外观生成背景
站长网2024-01-22 16:09:27
0000
站长资讯
AI信任缺口引起员工和高管担忧
**划重点:**1.🌐人工智能在职场崛起，带来业务变革和新的工作方式。2.😟高层领导和员工对AI的到来存在焦虑，可能减弱其积极影响。3.👩‍💼👨‍💼关键在于高层领导更好地向员工解释AI将如何改变公司和工作。
站长网2024-02-04 11:23:28
0000
站长资讯
一段话让模型自曝「系统提示词」！ChatGPT、Bing无一幸免
ChatGPT语音对话，发布即惊艳全网——凭借表达自然流畅，嘎嘎乱杀一众AI对话产品。而现在，其背后秘诀——系统提示词居然被人扒了出来!原来对话过程中，ChatGPT要遵循下面这么多规则:使用自然、对话性强、清晰易懂的语言，比如短句、简单词汇;要简洁而有针对性，大多数回应应该是一两个句子，除非用户要求深入探讨，不要垄断对话;使用话语标记来帮助理解，不要使用列表，保持对话流畅;
站长网2023-10-21 17:18:38
0005
站长资讯
德国反垄断负责人：人工智能可能会增强大型科技公司的主导地位
站长之家(ChinaZ.com)10月10日消息:德国卡特尔办公室主席AndreasMundt警告称，人工智能可能会增强大型科技公司的市场实力，监管机构应警惕任何反竞争行为。Mundt的评论强调了监管机构对科技巨头的担忧，这些公司拥有大量用户数据，可能在智能家居、网络搜索、在线广告、汽车和许多其他产品和服务中使用的新技术中获得竞争优势。
站长网2023-10-10 16:08:37
0000
站长资讯
研究人员成功欺骗大语言模型提供禁止的回答包括干扰选举等
本文概要:1.研究人员发现可以通过修改请求的措辞，轻松绕过大型语言模型的保护性障碍。2.插入一个简短的文本段落可以引导聊天机器人回答被禁止的查询。3.研究人员成功引导模型回答了关于如何犯税务欺诈、如何干扰选举、如何制作炸弹和非法药物的问题。匹兹堡卡内基梅隆大学的研究人员发现，通过在用户的输入后插入简短的文本，可以轻松引导大型语言模型回答被禁止的查询。
站长网2023-08-07 15:20:49
0000