百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入
站长网2024-01-19 10:23:400阅
百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。
项目地址:https://top.aibase.com/tool/univg
项目演示页面:https://univg-baidu.github.io/
视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注,并取得显著成就。然而,目前这一领域主要集中在单一目标或单一任务的视频生成上,例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式,如单独使用图像或文本,或将二者结合起来。
为了解决这一问题,百度提出了UniVG,一种“统一模态视频生成系统”,能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务,将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面,采用了“多条件交叉注意力”技术,以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面,引入了“偏置高斯噪声”,这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。
技术性能方面,UniVG在MSR-VTT视频数据库上表现出色,获得了最低的帧间视频差异性度量(Frame Video Distance, FVD)。这一成绩不仅超越了当前的开源方法,还与业界领先的闭源方法Gen2不相上下,显示出了卓越的实用价值和技术优势。
0000
评论列表
共(0)条相关推荐
百川智能发布大模型Baichuan3 称中文评测超越GPT-4
百川智能于1月29日推出了拥有超过千亿参数的大型语言模型Baichuan3。该模型在多个公认的通用能力评估,如CMMLU、GAOKAO和AGI-Eval等,都展示了卓越的表现,特别是在中文任务上更是超过了GPT-4的水平。同时,该模型在数学和代码方面的评估,如MATH、HumanEval和MBPP等,也有着优秀的成绩,证明了Baichuan3在自然语言处理和代码生成领域的强劲实力。站长网2024-01-29 14:06:070000“特斯拉强敌”就要来了!Lucid加快进度 计划进入中国市场
快科技9月7日消息,日前,Lucid首席工程师EricBach接受采访时表示:该公司正在探索进入世界上最大的电动汽车市场中国,但是进入的时间表目前还没有确定。针对进入中国市场的时间,EricBach解释道:我们需要做得更好。如果错误的方式进入中国市场,可能会犯很多错误。”0000蚂蚁百灵研发助手CodeFuse插件发布新版 新增支持 Android Studio
蚂蚁百灵研发助手CodeFuse插件发布新版,新增支持AndroidStudio,目前已兼容11款主流IDE,包括VisualStudioCode、IDEA等。此外,新版插件还针对JavaScript、TypeScript等前端语言进行了优化,提升了代码补全的准确率,使得前端代码生成的采纳率相比旧版提升了20%。站长网2023-12-11 14:19:3900002023,何以成为店播爆发元年?
店播时代,一场商家不得不上的赌局。陆元元是一家头部日化品牌的管培生,主要负责营销策划的工作,2023年9月以项目支援的名义来到了主播组,成为一名带货主播。作为一个i人(性格内向),陆元元其实并不喜欢直播,但直播“能帮助到具体的人”,她享受帮助别人的价值感。0000人工智能可以通过稻田收割前照片估计水稻产量
文章概要:1.建立包含2万多张稻田图像和产量数据的数据库,训练卷积神经网络模型。2.模型可以解释68-69%的产量变异,突出了穗在产量估计中的重要性。3.模型预测准确,成本低且不需要繁琐的作物采样,展示了区域监测产量的潜力。最近,日本冈山大学的研究人员利用收割期拍摄的地面数字图像,结合卷积神经网络模型,实现了对水稻产量的估算。站长网2023-08-26 16:12:120000