北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
AI能理解搞笑视频笑点在哪里了。
AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。
北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。
值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。
如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。
在投影之前对齐图像和视频表示
这项工作具体贡献如下:
Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。
Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。
Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。
对于模型能力,研究团队做了充分实验。
视频理解能力实验。
如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。
图片理解能力实验。
该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:
为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。
他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。
然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。
通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。
有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。
这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。
同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。
通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。
在视频理解方面,联合训练的也得到了明显的提升。
参考资料:
[1]https://arxiv.org/abs/2311.10122
[2]https://github.com/PKU-YuanGroup/Video-LLaVA
长虹将发布全球首个基于大模型的智慧家电 AI 平台
长虹公司宣布将在11月20日发布全球首个基于大模型的智慧家电AI平台。这个平台将结合生成式人工智能大模型和长虹自主研发的AI技术,应用于智能家电,首先在智能电视上进行应用。长虹表示,其早在2016年就发布了全球首台人工智能电视,引领智能家电行业进入人工智能时代。预计这个平台的发布将给用户带来颠覆式的革新和不一样的体验。站长网2023-11-15 20:02:54000014个国产AI大模型备案获批,众多科技巨头进入AIGC赛道
北京商报官网消息,第四范式、什么值得买、新壹科技、衔远科技、小米、智联招聘、Boss直聘、脉脉等13家企业的,14个国产AI大模型通过《生成式人工智能服务管理暂行办法》备案,可实现商业化应用。自2023年8月,文心一言、讯飞星火、百川智能等11个AI大模型首次通过备案以来,已陆续有几十家科技企业的大模型获批上线。站长网2024-01-30 13:55:210000高盛:预计到2025年全球人工智能投资将接近2000亿美元
站长网2023-08-06 10:34:420001“去董宇辉化”后,东方甄选活在“带货大主播”的困境里
整个6月,可谓东方甄选的多事之秋。此前舆论关注点包括“东方甄选直播间画风变了”、“东方甄选知识带货变喊麦带货”,俞敏洪吐槽“做得乱七八糟”引发热议后道歉,董宇辉在访谈节目中自曝“非常痛苦”、“不享受直播带货”等等,引发股价起伏。站长网2024-07-03 09:10:040000239万元能直接淘宝下单“飞行汽车”么 亿航智能回应
快科技3月19日消息,亿航智能日前在淘宝平台上架无人驾驶载人航空器EH216-S,报价239万元,引起网友热议,经查询亿航智能淘宝店铺发现,该产品已售数据仍为0。对此,亿航智能相关负责人表示,公司目前的主要订单及预订单仍来自toB和toG业务,上架淘宝平台是为了打开一个新的销售渠道,客户如果在平台下单,会有销售人员进行对接。站长网2024-03-19 17:14:310000