百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

站长网2024-01-19 10:23:400阅

百度推出的UniVG是一款视频生成模型，其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式，以更好地平衡两者之间的关系。

项目地址：https://top.aibase.com/tool/univg

项目演示页面:https://univg-baidu.github.io/

视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注，并取得显著成就。然而，目前这一领域主要集中在单一目标或单一任务的视频生成上，例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式，如单独使用图像或文本，或将二者结合起来。

为了解决这一问题，百度提出了UniVG，一种“统一模态视频生成系统”，能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务，将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面，采用了“多条件交叉注意力”技术，以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面，引入了“偏置高斯噪声”，这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

技术性能方面，UniVG在MSR-VTT视频数据库上表现出色，获得了最低的帧间视频差异性度量（Frame Video Distance， FVD）。这一成绩不仅超越了当前的开源方法，还与业界领先的闭源方法Gen2不相上下，显示出了卓越的实用价值和技术优势。

百度推出视频生成模型UniVG可处理各种文本和图像的组合输入

0000

评论列表

共(0)条

相关推荐

站长资讯
SK 海力士称内存芯片复苏已经开始人工智能需求强劲
韩国SK海力士周三表示，由于人工智能需求强劲，内存芯片市场正在从严重低迷中复苏，尽管其报告显示第二季度运营亏损。特别是企业买家和游戏个人电脑对内存芯片的需求预计将在今年下半年比上半年增加，这家全球第二大内存芯片制造商在一份声明中表示。
站长网2023-07-26 11:20:48
0000
站长资讯
马斯克𝕏AI团队首批产品曝光包括Grok和PromptIDE
要点:1.马斯克的𝕏AI团队首批产品曝光，包括Grok和PromptIDE，两者与AI信息检索和提示词工作站相关。2.这两个产品的信息源自推特博主@AsunaGilfoyle-e/acc，而且𝕏AI已提交了商标申请，增加了产品可信度。3.具体产品功能和细节仍不清楚，但商标描述表明它们将与AI、信息处理、软件开发等领域相关，至少有一个是在线网站。
站长网2023-11-03 11:53:46
0000
站长资讯
雷军称倒霉的地方就是老跟苹果华为比：成功推动了小米进步
近日，在谈到小米汽车未来的发展方向时，雷军在一次访谈中分享了他的见解。雷军强调，模式创新已经达到了一个成熟阶段，小米需要通过技术创新来成为全球科技领域的领导者。他回顾了小米手机从用户体验创新和应用层创新的起步，到现在小米汽车从核心技术开始的转变。小米汽车的目标不仅仅是制造一款SUV，而是要有长远的战略思维，以赢得15年后的市场，而不是仅仅追求短期的胜利。
站长网2024-08-06 11:15:35
0001
站长资讯
9月前必须适配64位！小米、OPPO、vivo将逐步清理商店32位应用
快科技5月24日消息，今日，移动智能终端生态联盟发文，对金标联盟64位适配时间节点进行了通知。为了更好地提升安卓应用兼容性体验，避免在24年下半年的新机上出现应用无法安装使用的问题，官方提醒开发者务必在2024年8月31日前完成64位适配。届时，金标联盟成员小米、OPPO、vivo三家将逐步清理商店32位应用，并针对不在架的32位应用实施相关风险提示等措施。
站长网2024-05-24 18:10:29
0000
站长资讯
Snap 与微软合作在其「My AI」聊天机器人对话中投放广告
站长之家(ChinaZ.com)9月26日消息:Snapchat与微软合作，将在其AI产品MyAI中插入广告。MyAI是今年早些时候向更广泛的Snapchat用户推出的一个AI聊天机器人。该公司五月份表示，将开始测试SponsoredLinks(赞助商链接)——这是与用户对话相关联的链接建议。图片来自Snap
站长网2023-09-26 10:01:57
0000