阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频
视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。
阿里巴巴、浙江大学和华中科技大学的研究人员提出了一种级联的 I2VGen-XL 方法,该方法通过解耦这两个因素来增强模型性能,并通过利用静态图像作为关键指导形式来确保输入数据的对齐。
项目体验网址:https://top.aibase.com/tool/i2vgen-xl
I2VGen-XL 由两个阶段组成:
i) 基础阶段通过使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。
ii) 细化阶段通过合并额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。
目前文本到视频合成的主要挑战之一是高质量视频文本对的收集。为了丰富 I2VGen-XL 的多样性和鲁棒性,研究人员收集了一个庞大的数据集,其中收集了大约3500万个单镜头文本-视频对和60亿个文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时提高语义的准确性、细节的连续性和生成视频的清晰度。
所提出的模型利用潜在扩散模型(LDM),这是一种生成模型类,可以学习扩散过程来生成目标概率分布。在视频合成的情况下,LDM逐渐从高斯噪声中恢复潜在目标,保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构,以实现有效且高效的视频合成。
细化阶段对于增强空间细节、细化面部和身体特征以及减少局部细节中的噪声至关重要。研究人员分析了频域细化模型的工作机制,强调了其在保留低频数据和提高高清视频连续性方面的有效性。
在与 Gen-2和 Pika 等顶级方法的实验比较中,I2VGen-XL 展示了更丰富、更多样化的运动,强调了其在视频生成方面的有效性。研究人员还对人脸、3D卡通、动漫、中国画、小动物等多种图像进行了定性分析,展示了该模型的泛化能力。
项目:https://i2vgen-xl.github.io/
论文网址:https://arxiv.org/abs/2311.04145
七麦数据重磅发布AI应用榜:豆包登顶;文本生成仍是主流、数字人崭露头角;厂商布局渐成雏形......
随着ChatGPT的火热,国产大模型开始呈现爆发式增长态势,科技巨头、垂直场景玩家纷纷入局。在AI技术跃进式发展的趋势下,“从文本生成到AI聊天机器人”“从网站、软件App到智能终端”“从AI视频,到AI游戏”……AIGC无处不在,并开始席卷一切。那目前哪类AI产品最“卷”,哪个领域又尚处蓝海之中?哪些产品最受用户宠爱?我们是否还有入局的机会?站长网2024-04-29 19:28:210000全网评论数最多的前10条视频,你知道吗?
这几天,因为一首歌,网友们去一些明星的视频社交平台下评论“打卡”、盖楼,甚至有网友每天统计评论的数量。那么有个问题你可能没想过:全网评论数量最多的视频有哪些?全网视频评论数top10那英视频评论量已进全网前五有网友统计了全网评论数最多的前10条视频。如下:第十名Howyoulikethat站长网2023-08-01 09:31:310000流水3亿,3天涨粉100万+,短剧让用户重新爱上抖音
“好虐啊!好虐啊!男主到底什么时候追妻火葬场?”“男主什么时候才能复仇成功?”“死渣男!女主到底什么时候发现他出轨?”喜欢看剧的你,是否有过类似的吐槽?近几年,注水剧多了,吐槽也多了。不少人懒得看电视剧,失去了看剧的快乐,本人也如此。直到年初爆火短剧《二十九》的出现,让我重新找回了看剧的快乐。01#3集播放量破亿,抖音短剧《二十九》表现优异站长网2023-10-26 18:10:380000OpenAI 发布新的文本生成 3D 模型 Shap-E:比 Point-E 更快更好
OpenAI最近分享了他们在将文本提示转化为3D物体方面的最新探索,名为Shap-E。这款生成式AI工具提供了一种新的方式来生成3D物体,其制作的物体比去年发布的Point-E模型更好、更详细、更准确。截自Shap-EGitHub页面站长网2023-05-09 14:37:320000百度副总裁:大模型领域有人在挂羊头卖狗肉
快科技9月1日消息,在2024亚布力企业家第二十届夏季年会期间,百度副总裁石清华指出,目前大模型领域存在两种不良现象。其中之一便是一些非技术专家在该领域进行挂羊头卖狗肉”的行为,这不仅干扰了企业主的选择,也对行业的健康发展造成了影响。石清华认为,大模型的讨论不应只停留在模型本身,而应关注其实际应用和落地效果,无论是提升效率、降低成本还是改善产品质量,大模型的应用都应该为企业带来实际的收益。0001