生成超清分辨率视频,南洋理工开源Upscale-A-Video
大模型在生成高质量图像方面表现出色,但在生成视频任务中,经常会面临视频不连贯、图像模糊、掉帧等问题。
这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯性。
为了解决这些难题,新加坡南洋理工大学的研究人员开发了一种Upscale-A-Video框架,无需任何训练便能快速集成到大模型中,提供视频超分辨率、去噪、还原等强大功能。
论文地址:https://arxiv.org/abs/2312.06640
开源地址:https://github.com/sczhou/Upscale-A-Video
项目地址:https://shangchenzhou.com/projects/upscale-a-video/
Upscale-A-Video主要借鉴了图像模型中的扩散方法,设计了一种无需大规模训练即可快速迁移的框架。
该框架融合了局部和全局两种策略来维持时间的一致性。局部层,模型通过3D 卷积和时序注意力层增强特征提取网络U-Net在短视频片段内的一致性。
全局层,则通过光流指导的循环潜码传播功能,提供跨视频片段强化更长时间尺度下的连贯性。
除了时间一致性,Upscale-A-Video还可以通过文本提示指导细节纹理的生成,不同的提示词可产生不同风格、质量。
时序U-Net
U-Net作为特征提取网络,对视频质量起决定性作用。传统只考虑空间信息的U-Net在处理视频时往往会引入高频误差,表现为抖动和闪烁。
Upscale-A-Video通过向U-Net中插入3D卷积块和时序自注意力层,增强其对时间维度的建模能力。这使U-Net可以学习视频数据中帧与帧之间的依赖,从而在局部序列内实现一致的超分辨重建。
另一方面,研究人员选择固定U-Net中的空间层参数,只对新增时序层进行调优。这种策略的优点是可以避免从头大规模预训练,充分利用图像模型中提取的丰富特征。同时也缩短了网络收敛的时间,起到事半功倍的效果。
循环潜码
时序U-Net的作用范围仅局限于短视频片段,难以约束更长序列的全局一致性。而视频抖动和质量波动往往都是长时间范围内的现象。
为解决这一问题,Upscale-A-Video设计了一个基于光流的循环潜码传播模块。
该模块可以在不增加训练参数的情况下,通过前向和后向传播推断所有帧的潜码信息,有效扩大模型感知的时间范围。
具体来说,该模块利用预先估计的光流场,进行逐帧传播与融合。它根据光流的前向-后向一致性误差判断传播的有效性,只选择误差小于阈值的区域进行特征传播。
而超出阈值的区域则保留当前帧信息。这种混合融合策略,既利用了光流建模的长期信息,又避免了传播错误的累积。
文本提示增强指导
Upscale-A-Video还支持文本条件和噪声水平的控制,用户可以依据实际情况,引导模型生成不同风格和质量的结果。
文本提示可以指导模型合成更逼真的细节,如动物皮毛、油画笔触等。噪声水平的调整也提供了在还原与生成间权衡的灵活性:加入更少噪声有利于保真,而更高水平的噪声则促使模型补充更丰富的细节。
这种可控制的生成能力进一步增强了Upscale-A-Video处理复杂真实场景的鲁棒性
实验数据
研究人员从定量和定性两个方面全面验证了Upscale-A-Video的性能。在四个合成低质量视频基准上,皆取得了最高的峰值信号噪声比和最低的流式感知损失。
流式验证集和AI生成视频上, Upscale-A-Video的非参考画质评分也高居各方法之首。这也证明了Upscale-A-Video在保真还原和感知质量上的优势。
从生成效果对比来看,Upscale-A-Video重建的视频展现了更高实际分辨率下的细节层次;运动轨迹更加连贯自然,没有明显的抖动和裂缝。这得益于强大的扩散先验和时空一致性优化。
相比之下,卷积神经网络和扩散等方法会出现模糊不清,失真等效果,无法达到同等水准。
Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4
**划重点:**1.🌐VicunaMakers的研究团队成功构建了一个只有130亿参数的小型语言模型(LLM),在性能上与OpenAI的GPT-4相媲美。2.🔄利用新工具LLMDecontaminator,研究人员通过改写测试集,使得LLM能够在主要基准测试中达到GPT-4的性能水平。站长网2023-11-17 10:04:580000互联网大厂的2023年,似乎都不再有攻击性了
还有不到10天时间,2023年就将变成过去式。站在2023与2024年的交汇点,回看过去的这一年,国内互联网行业似乎走进了一个谁都无法预料的混沌中。一边从数字广告市场的缓慢复苏中汲取红利,另一边却又不约而同地选择了收缩阵线,因此也难怪有诸多业内人士认为,此前持续了多年的互联网巨头无边界扩张或已结束,大家纷纷开始由攻转守。0000京东:双11“一键价保”已为用户节省4.28亿元
根据京东官方最新的数据显示,自10月23日晚8点至11月7日0点,一键价保服务已经为用户节省了高达4.28亿元。今年双11期间,有超过8亿款商品参与了全程价保活动,这意味着更多的消费者能够在这个过程中享受到京东的这一优质服务。申请价保的方式也极其简单,消费者只需在京东首页搜索框输入“价保”关键词,进入价格保护界面,点击“一键价保”即可。站长网2023-11-08 14:22:280001《纽约时报》可能起诉 OpenAI,可能改变 AI 行业格局
本文概要:1.《纽约时报》考虑起诉OpenAI,因为ChatGPT可能与报纸的内容竞争。2.双方就许可协议进行多次谈判,未能达成一致。3.诉讼结果可能对整个人工智能行业产生深远影响,需要寻找新的训练数据、重新训练模型。根据媒体报道,《纽约时报》正在考虑对OpenAI提起诉讼,该诉讼的结果可能会对人工智能行业产生持久影响。站长网2023-08-19 13:07:140000拿货靠抢!义乌“年画大王”卖全球
新春佳节,家里必须带点红。对中国人来说,贴年画是迎接春节的一项重要仪式,腊月里,大家会在房屋正大门贴上“倒福”和春联,年味也就呼之欲出了。卖年画、对联的老板会被喊作“送福气的人”。中国各地被喊作“年画大王”的人不少,他们往往在年画绘制上拥有精湛的手艺,但在义乌,“年画大王”更是这门生意的操盘者:以义乌市文化礼品行业协会会长、义乌市年画挂历商会会长楼宝娟为代表的从业者达六七百家,占全球八成市场。站长网2024-02-16 10:38:030000