轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。
上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。
相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。
发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。
轻松拿捏4K图像理解
先来看效果~
研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550x3300),并询问论文哪个模型在MMBench上的性能最高。
需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答问题。
面对更加极端分辨率的图像输入(816x5133),IXC2-4KHD轻松理解图像包括7个部分,并准确说明了每个部分包含的文字信息内容。
随后,研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力,其中5项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。
仅仅使用7B参数量,IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。
△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro
如何实现4K动态分辨率?
为了实现4K动态分辨率的目标,IXC2-4KHD包括了三个主要设计:
(1)动态分辨率训练:
△4K分辨率图像处理策略
在IXC2-4KHD的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过55x336x336,等价于3840x1617分辨率)的一个中间尺寸。
随后,图像被自动切块成多个336x336的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。
实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在4K分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。
(2)添加切块布局信息:
为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’\n’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大,而对于动态4K分辨率训练则可以带来显著的性能提升。
(3)推理阶段扩展分辨率
研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将HD9(最多9块)的训练模型直接使用HD16进行测试,可以在InfographicVQA上观察到高达8%的性能提升。
IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。
论文链接:
https://arxiv.org/pdf/2404.06512.pdf
项目链接:
https://github.com/InternLM/InternLM-XComposer
沃尔玛认为人工智能不会导致裁员:将在推出更多 AI 技术时继续雇用相同数量或更多的员工
沃尔玛正在使用人工智能工具来提高其商店的效率和生产力,但该公司声称这并没有导致裁员。人工智能软件用于确定最有效的卡车装载方式、根据客户购买模式组织货架以及回答客户问题等任务。沃尔玛表示,该技术让员工能够更加专注于客户服务,并且没有导致任何裁员。该公司计划在未来推出更多人工智能技术时继续雇用相同数量或更多的员工。站长网2023-10-07 18:00:400000雷军将重回小米手机发布会:发布小米 MIX Fold 4 、 MIX Flip
站长之家(ChinaZ.com)7月11日消息:随着小米汽车项目SU7的顺利发布与市场的热烈反响,小米创办人、董事长兼CEO雷军在成功引领汽车领域新篇章后,宣布将重归手机舞台中央。7月8日,小米产品经理魏思琪在与米粉的亲密互动中透露,万众瞩目的小米MIXFold4与全新形态的小米MIXFlip折叠屏手机发布会,将由雷军亲自担任主持,这一消息迅速点燃了科技爱好者的热情。站长网2024-07-11 11:42:520000刘慈欣谈ChatGPT:人类的无能反而是人类最后的屏障
据报道,刘慈欣最近在一次活动中表达了自己对以ChatGPT为代表的人工智能可能会给人们带来的影响,回答了人工智能是否会消灭人类的问题。第一个层次就是这种字面意义上的消灭,就是人工智能用某种暴力从肉体上完全消灭人类或是统治世界。这一点从目前的这个技术发展趋势来看,特别是从目前的技术水平来看,在可以看到的未来可能性不是太大。站长网2023-06-25 23:21:370000苹果CEO库克郑恺外滩偶遇:上海静安Apple Store即将开业
苹果CEO库克近日在个人微博发布了一段视频,内容令人惊喜。视频中,他分享了与知名演员郑恺在上海外滩漫步的愉快时光,并一同品尝了传统的上海早餐汤包。库克在视频中表示:“回到这座非凡的城市总是令我特别欢喜。”这次他突然到访上海,不仅与郑恺在外滩偶遇,还共同体验了这座城市的独特魅力。两人一同游览了上海北外滩著名的外白渡桥,站在桥上,东方明珠塔的美景尽收眼底。他们还在此合影留念,留下了难忘的回忆。站长网2024-03-20 15:23:110000小米澎湃OS首批适配Android 15!小米14等四款机型已发布开发者预览版
快科技5月16日消息,小米澎湃OS官方最新宣布开始适配Android15Beta1。小米14、小米14Pro、RedmiK60至尊版、小米平板6SPro12.4将首批支持Android15Beta1。开发者们现在可以使用这些机型,体验基于Android15Beta1的小米澎湃OS开发者预览版,试用新API并测试平台变更,提前让应用为新版本做好准备。站长网2024-05-16 08:20:240000