轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

站长网2024-04-22 21:11:421阅

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。

上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制，该工作将多模态大模型的最大输入图像提升到超过4K （3840x1600）分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。

发布三天，该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首页截图(分辨率为2550x3300)，并询问论文哪个模型在MMBench上的性能最高。

需要注意的是，该信息在输入截图的正文文字部分并未提及，仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题，IXC2-4KHD成功理解了雷达图中的信息，正确回答问题。

面对更加极端分辨率的图像输入（816x5133），IXC2-4KHD轻松理解图像包括7个部分，并准确说明了每个部分包含的文字信息内容。

随后，研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力，其中5项评测（DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench）关注模型的高分辨率图像理解能力。

仅仅使用7B参数量，IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果，展现了不局限于高分辨率图像理解，而是对各种任务和场景的泛用能力。

△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率?

为了实现4K动态分辨率的目标，IXC2-4KHD包括了三个主要设计:

（1）动态分辨率训练:

△4K分辨率图像处理策略

在IXC2-4KHD的框架中，输入图像在保持长宽比的情况下，被随机放大到介于输入面积和最大面积（不超过55x336x336，等价于3840x1617分辨率）的一个中间尺寸。

随后，图像被自动切块成多个336x336的区域，分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入，同时也弥补了高分辨率训练数据不足的问题。

实验表明，随着动态分辨率上限的增加，模型在高分辨率图像理解任务（InfographicVQA、DocVQA、TextVQA）上实现了稳定的性能提升，并且在4K分辨率仍然未达到上界，展现了更高分辨率进一步扩展的潜力。

（2）添加切块布局信息:

为了使模型能够适应变化丰富的动态分辨率，研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的，研究人员采取了一种简单的策略:一个特殊的‘换行’（’\n’）令牌被插入到每一行的切块之后，用于告知模型切块的布局。实验表明，添加切块布局信息，对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大，而对于动态4K分辨率训练则可以带来显著的性能提升。

（3）推理阶段扩展分辨率

研究人员还发现，使用动态分辨率的模型，可以在推理阶段通过增加最大切块上限直接扩展分辨率，并且带来额外的性能增益。例如将HD9（最多9块）的训练模型直接使用HD16进行测试，可以在InfographicVQA上观察到高达8%的性能提升。

IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平，研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈，因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接:

https://arxiv.org/pdf/2404.06512.pdf

项目链接:

https://github.com/InternLM/InternLM-XComposer

轻松拿捏4K高清图像理解这个多模态大模型自动分析网页海报内容打工人简直不要太方便

0001

评论列表

共(0)条

相关推荐

站长资讯
马斯克推出名为 Grok 的具有「叛逆倾向」的人工智能聊天机器人
特斯拉首席执行官马斯克最近推出了一款名为Grok的人工智能聊天机器人，该机器人受到《银河系漫游指南》的启发，具有「叛逆倾向」（rebelliousstreak）。尽管在上周警告说AI是「人类面临的最大威胁之一」，但马斯克表示，这款与ChatGPT竞争的聊天机器人将在测试后向他的X平台的高级订阅用户提供。
站长网2023-11-06 09:08:13
0000
站长资讯
马斯克贴脸抄微信？音视频通话将登陆X平台：被枪指着也看不到别人私信
快科技8月31日消息，马斯克今日表示，视频和音频通话即将登陆X，该功能适用于iOS、Android、Mac和PC，通话无需电话号码。马斯克此前还透露，X新版本还将带来经过加密的私信功能，按照他的说法:即便我被枪指着，也看不到你的私信”。X（推特）此前只是一个资讯、个人社交动态分享媒体，而此次增加视频、语音通话功能，无疑又加强了其社交属性，在功能性上也与微信进一步看齐。
站长网2023-08-31 19:56:48
0000
这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct
在最近关于「ScalingLaw是否撞墙」的讨论中，后训练（post-training）被寄予厚望。
站长网站长资讯2024-11-26 09:15:19
0000
站长资讯
德国杂志解雇使用 AI 生成内容的编辑并向舒马赫家人道歉
德国杂志《DieAktuelle》日前刊登了一篇用人工智能生成的迈克尔·舒马赫采访，这篇采访引起了公众的强烈不满，舒马赫的家人表示将对该杂志采取法律行动。现在，该杂志的出版商FunkeMediaGroup已解雇了该篇文章的编辑，并向舒马赫家族道歉。FunkeMediaGroup的MDBiancaPohlmann在其网站上发表声明，谴责了该篇采访的出版。
站长网2023-04-23 09:53:49
0000
站长资讯
谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种......这不，谷歌团队就做出来了一个强大的「读屏」AI。研究人员将其称为ScreenAI，是一种理解用户界面和信息图表的全新视觉语言模型。
站长网2024-03-05 15:30:56
0000