最长处理2小时,开源视频字幕模型Video ReCap
随着抖音、快手等平台的火爆出圈,越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时,传统的视频字幕生成技术往往无法满足需求。
因此,北卡罗来纳大学和Meta AI的研究人员开源了,视频字幕模型Video ReCap。这是一种递归视频字幕生成模型,能够处理从1秒到2小时的视频,并在多个层级上输出视频字幕。
此外,研究人员通过在Ego4D上增加8,267个手动收集的长视频摘要,引入了一个层次化视频字幕数据集Ego4D-HCap,并使用该数据集对Video ReCap进行了综合评估。
结果显示,Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显超过多个强大基准模型。通过该模型生成的分层视频字幕,也能显著提升基于EgoSchema数据集的长视频问答效果。
开源地址:https://github.com/md-mohaiminul/VideoRecap?tab=readme-ov-file
论文地址:https://arxiv.org/abs/2402.13250
Video ReCap模型介绍
Video ReCap的核心技术是使用了递归视频语言架构,主要通过递归处理机制,使模型能够在不同的时间长度和抽象层级上理解视频,从而生成精确且层次丰富的视频描述字幕。主要由3大模块组成。
1)视频编码器:Video ReCap使用了一个预训练的视频编码器,从长视频中提取特征。对于短视频片段,编码器则输出密集的时空特征。
这允许模型捕获细粒度的详细信息,对于更高层级的字幕,使用全局特征(如CLS特征),以降低计算成本并捕获长视频输入的全局属性。
2)视频-语言对齐:该模块可以将视频和文本特征映射到联合特征空间,以便递归文本解码器可以联合处理两者。
具体来说,使用了一个预训练的语言模型,通过在每个转换器块内注入可训练的交叉注意力层,从视频特征中学习固定数量的视频嵌入。
然后,从属于特定分层的字幕中学习文本嵌入。最后,连接视频和文本嵌入以获得联合嵌入,并交给后续的递归文本解码器使用。
3)递归文本解码器:该模块主要用于处理短、中、长三种视频的字幕,所以,采用了一种分层的生成策略。首先,使用从短视频剪辑中提取的特征生成短剪辑级别的字幕。这些短剪辑级别的字幕描述了视频中的原子动作和低级视觉元素,例如,对象、场景和原子动作等。
然后,使用稀疏采样的视频特征和上一层级别生成的字幕作为输入,生成当前层级别的视频字幕。这种递归设计可以有效地利用不同视频层次之间的协同作用,能高效地生成最多2小时的长视频字幕。
Video ReCap实验数据
为了评估Video ReCap模型,研究人员推出了一个新的分层视频字幕数据集Ego4D-HCap。该数据集是基于目前最大的公开第一人称视频数据集之一Ego4D。
Ego4D-HCap主要包含三个层次的字幕:短剪辑字幕、几分钟长的段描述和长段视频摘要,用于验证分层视频字幕任务的有效性。
结果显示,在所有三个时间层级,Video ReCap模型都大幅度优于之前的强大的视频字幕基准模型。此外,还发现递归架构对于生成段描述和视频摘要非常重要。
例如,不带递归输入的模型在段描述生成方面CIDEr性能下降1.57%,而在长时间视频摘要生成方面下降了2.42%。
研究人员还在最近推出的长序视频问答基准EgoSchema上验证了该模型。结果显示,Video ReCap生成的分层视频字幕可以将文本问答模型的性能提高4.2%,并以50.23%的整体准确率刷新了记录,比之前的最佳方法提高了18.13%。
扎克伯格夫妇要消灭人类疾病,靠人工智能行吗?
凤凰网科技讯《AI前哨》北京时间9月23日,2016年,脸书创始人马克扎克伯格(MarkZuckerberg)与其妻子普莉希拉陈(PriscillaChan)宣布了一个宏大目标:在2100年前消灭人类疾病。本周,他们详细介绍了实施计划,希望靠人工智能(AI)来完成这项事业。站长网2023-09-23 10:31:350001谷歌推出 2000 万美元基金支持负责任的人工智能开发
站长之家(ChinaZ.com)9月12日消息:继在旧金山举行的GoogleCloudNext会议上发布了一系列生成式AI项目和工具后,谷歌于周一宣布推出数字未来项目,旨在汇聚AI发展中的多样化声音。谷歌还宣布设立2000万美元基金,支持「人工智能的负责任发展」。站长网2023-09-12 09:43:060000Synthara 融资 1100 万美元 成为人工智能时代小型芯片的Arm
站长之家(ChinaZ.com)6月5日消息:总部位于瑞士苏黎世的初创企业Synthara日前宣布,已完成1100万美元融资,用于开发其革新性嵌入式芯片技术,旨在使小型处理器更适用于人工智能应用场景。站长网2024-06-05 16:36:560000ControlNet作者推新项目Omost 一句话变构图小作文 再也不用为写提示词头疼了
近日,ControlNet的作者推出了一个全新的项目——Omost。这个项目对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词,就可以生成非常详细并且空间表现很准确的图片。Omost通过预定义的位置、偏移量和区域三大参数来简化图像元素的描述。这使得用户能够更直观地指定图像中各个元素的位置和大小,从而生成高质量、符合预期的图像。站长网2024-06-03 13:22:190000前搜狗CEO王小川:未来不会用ChatGPT 就像今天不会用Internet的人
快科技5月14日消息,去年11月,美国OpenAI推出了ChatGPT,五天用户数破100万,两月后月活跃突破1个亿,ChatGPT成为人类历史上用户数增长最快的消费级应用。不会用GPT将会被淘汰?哪个行业会先被取代?ChatGPT爆火后,业内对它的探讨从未停过。在日前央视财经播出的《对话》节目中,360集团创始人周鸿祎、百川智能创始人兼CEO王小川分别谈到了自己对ChatGPT的看法。站长网2023-05-14 09:19:320000