轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。
上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。
相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。
发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。
轻松拿捏4K图像理解
先来看效果~
研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550x3300),并询问论文哪个模型在MMBench上的性能最高。
需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答问题。
面对更加极端分辨率的图像输入(816x5133),IXC2-4KHD轻松理解图像包括7个部分,并准确说明了每个部分包含的文字信息内容。
随后,研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力,其中5项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。
仅仅使用7B参数量,IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。
△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro
如何实现4K动态分辨率?
为了实现4K动态分辨率的目标,IXC2-4KHD包括了三个主要设计:
(1)动态分辨率训练:
△4K分辨率图像处理策略
在IXC2-4KHD的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过55x336x336,等价于3840x1617分辨率)的一个中间尺寸。
随后,图像被自动切块成多个336x336的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。
实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在4K分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。
(2)添加切块布局信息:
为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’\n’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大,而对于动态4K分辨率训练则可以带来显著的性能提升。
(3)推理阶段扩展分辨率
研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将HD9(最多9块)的训练模型直接使用HD16进行测试,可以在InfographicVQA上观察到高达8%的性能提升。
IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。
论文链接:
https://arxiv.org/pdf/2404.06512.pdf
项目链接:
https://github.com/InternLM/InternLM-XComposer
微信红包封面开放平台:已支持企业视频号注册平台账号
微信红包封面开放平台现在支持企业认证的视频号注册账号,以帮助企业创作者加强品牌建设并加速品牌传播。注册后,企业视频号可以在其视频号和相关公众号内发放定制的红包封面,提升品牌声量和用户好感度,并通过社交传播扩大品牌影响力。站长网2024-08-10 01:58:300000128GB iPhone面临存储危机:苹果AI要求预留7GB空间
快科技1月5日消息,AppleIntelligence英语版本已经上线,支持iPhone15Pro、iPhone15ProMax、iPhone16、iPhone16Plus、iPhone16Pro和iPhone16ProMax等机型。站长网2025-01-06 09:05:040000OpenAI计划重磅更新 应用程序开发成本可降低20倍
要点:OpenAI计划在下个月进行重磅更新,以更低价格、更快的方式帮助开发人员构建专属ChatGPT,包括增加内存存储功能,可以降低应用程序成本。这一更新解决了合作伙伴通过开发、销售AI软件建立业务时需要支付高昂的ChatGPT模型成本的问题。OpenAI还计划推出新的视觉开发工具,用于构建具有图像分析和描述能力的应用程序,适用于医疗、金融、电商、娱乐等领域。站长网2023-10-12 09:00:420000功耗降低40%!特斯拉将对哨兵模式进行优化:二季度有望更新
快科技2月23日消息,据媒体报道,据特斯拉动力总成和能源工程高级副总裁DrewBaglino透露:目前公司正在开发一项更新,将把哨兵模式的功耗降低多达40%。该更新预计今年第二季度上线。虽然特斯拉的哨兵模式可以实时监测车辆周围的情况,但是,该模式的耗电量一直都是十分严重的问题。站长网2024-02-24 10:04:290000谷歌版ChatGPT支持中文了!弱智吧实测结果在此
Claude2发布之后,Google也按耐不住,立马官宣了Bard的船新版本。支持的语言变多了,其中就包括中文,让广大网友直接喜提新玩具。总结一下这次更新,主要包括这些内容:支持包括中文在内的40多种语言(含图形界面)图像识别,需要在账号设置中将显示语言改为英语对话朗读聊天记录和对话分享,代码可导出到Replit回复内容可编辑不过在官宣的这些内容之外,似乎有网友发现了华点:站长网2023-07-16 05:52:230001