百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入
站长网2024-01-19 10:23:400阅
百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。

项目地址:https://top.aibase.com/tool/univg
项目演示页面:https://univg-baidu.github.io/
视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注,并取得显著成就。然而,目前这一领域主要集中在单一目标或单一任务的视频生成上,例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式,如单独使用图像或文本,或将二者结合起来。
为了解决这一问题,百度提出了UniVG,一种“统一模态视频生成系统”,能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务,将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面,采用了“多条件交叉注意力”技术,以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面,引入了“偏置高斯噪声”,这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。
技术性能方面,UniVG在MSR-VTT视频数据库上表现出色,获得了最低的帧间视频差异性度量(Frame Video Distance, FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,显示出了卓越的实用价值和技术优势。
0000
评论列表
共(0)条相关推荐
OpenAI 争论何时发布其人工智能生成的图像检测器
OpenAI最近透露,他们一直在"广泛讨论和争论"何时发布一种可以检测图像是否由其生成AI艺术模型DALL-E3创建的工具。据OpenAI研究员SandhiniAgarwal透露,虽然该分类器工具的准确性“非常好”,但它还未达到公司的质量标准。鉴于该工具对确定照片的来源具有重大影响,例如一件作品是否为艺术家所绘或是否具有误导性,因此推出一个不太可靠的工具会是一个问题。站长网2023-10-20 10:07:250000animatediff-webui即将开源 简化配置,提升易用性
近期,animatediff-webui即将开源,这是一项基于animatediff-cli-prompt-travel的创新性工程,旨在简化繁琐复杂的配置过程,从而大幅提升用户体验。站长网2023-11-21 10:42:160000生成式AI平台Tiamat获数百万美元A+轮融资
近日,生成式AI平台「Tiamat」获得了数百万美元的A轮投资,由线性资本领投,老股东DCM和绿洲资本跟投。据悉,今年2月「Tiamat」曾完成近千万美元的A轮融资。Tiamat成立于2021年,是上海退格数字科技有限公司推出的生成式AI平台,其自研的MorpherVLM是国内首个基于概念融合范式提出的近百亿级跨模态生成模型。站长网2023-05-08 14:19:260000扎克伯格警告:AI GPU 瓶颈已缓解 但功耗将限制 AI 增长
在最近的一次采访中,Facebook联合创始人兼首席执行官马克·扎克伯格表示,长期的GPU荒已经基本结束,人工智能的增长和发展短期内不会受到资本限制的影响,而是将面临能源问题的挑战。他指出,新数据中心的能耗已经达到惊人的50至100兆瓦,甚至可能达到150兆瓦,预示着能源限制可能成为工业的下一个主要关键点。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-05-13 15:03:000000等不及Sora的老铁,奔向快手可灵
OpenAI让大模型风暴席卷全球的最初那段时间里,快手并不是一个耀眼的角色。彼时,百度拿出文心一言,阿里拿出通义千问,腾讯拿出混元大模型,彼此追赶,研发与开放速度都很快。快手不在最初的角逐名单里,甚至到现在,都很少有人能叫出快手大语言模型的名字:快意。站长网2024-08-01 11:41:300000