百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入
站长网2024-01-19 10:23:400阅
百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。
项目地址:https://top.aibase.com/tool/univg
项目演示页面:https://univg-baidu.github.io/
视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注,并取得显著成就。然而,目前这一领域主要集中在单一目标或单一任务的视频生成上,例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式,如单独使用图像或文本,或将二者结合起来。
为了解决这一问题,百度提出了UniVG,一种“统一模态视频生成系统”,能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务,将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面,采用了“多条件交叉注意力”技术,以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面,引入了“偏置高斯噪声”,这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。
技术性能方面,UniVG在MSR-VTT视频数据库上表现出色,获得了最低的帧间视频差异性度量(Frame Video Distance, FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,显示出了卓越的实用价值和技术优势。
0000
评论列表
共(0)条相关推荐
微软必应聊天推出企业版 并上线多模式视觉搜索图片功能
昨日,微软宣布,必应聊天企业版(BingChatEnterprise)以预览版的形式正式推出,此外还将同时推出多模式视觉搜索功能。据介绍,使用必应聊天企业版,用户和业务数据受到保护,不会泄漏到组织外部。聊天数据不会保存,也不会用于训练模型。站长网2023-07-19 12:35:200000下沉网红,好看不好赚?
最近,一批地域网红用方言“说唱”席卷着抖音用户的信息流。地图的北端,山西的四个主持人,在一遍又一遍地唱着“晋城人早上吃甚饭”;地图的西南角,“恐龙抗狼”正在扩散开来,成为每一个想蹭热点的抖音达人的必备BGM。至于西北角的“甘肃不大、创造神话”,和中原大地的“河南人都是神”,早已是上个“版本”就流行过的方言“说唱”热潮。站长网2023-08-07 09:12:390000调查:99%泰国员工表示使用生成式AI提高了生产力
划重点:-近乎99%的泰国员工表示在工作中使用生成式AI后,生产力有所提升。-超过60%的员工认为生成式AI对于职业晋升至关重要。-调查还揭示了使用生成式AI时的道德和安全风险。根据一项由全球软件公司Salesforce委托进行的YouGov调查,几乎所有在工作中使用生成式AI(AI)的泰国员工报告称,他们的生产力有所提高,并将这项技术视为推动职业发展的关键。站长网2023-11-09 11:02:550000罗永浩称车企一把手们是笑面虎:吐槽北京车展CEO互捧
罗永浩对北京车展车企CEO间亲密互动的真实性提出质疑,这一观点迅速在网络上引发了热烈讨论。在2024年的北京车展上,小米的雷军和360的周鸿祎无疑成为了备受瞩目的焦点人物。不过,除了他们之外,其他车企的领军人物,如比亚迪的王传福、理想汽车的李想、蔚来的李斌、小鹏汽车的何小鹏等也悉数登场,共同为这场行业盛宴增添了不少色彩。站长网2024-04-29 18:42:060000《黑神话:悟空》创新纪录 同时在线玩家数突破220万 销售额超15亿元
近日,SteamDB数据显示,备受期待的国产动作游戏《黑神话:悟空》创下了新的里程碑。该游戏昨日同时在线玩家数已突破220万,位居今年Steam历史同时在线纪录第二。据统计,截至目前,《黑神话:悟空》在Steam平台上的总销量已超过300万份。加上在WeGame、Epic和PS平台的销售,该游戏的全平台总销量已超过450万份,总销售额超过15亿元。站长网2024-08-21 10:39:070000