华科大发布多模态大模型新基准 覆盖五大任务
要点:
华中科技大学等机构发布了多模态大模型新基准,对14个主流多模态大模型进行全面评估,覆盖五大任务、27个数据集。
研究团队深入研究了多模态大模型在OCR(光学字符识别)能力上的表现,提出了专门的评测基准OCRBench,揭示了在OCR领域中多模态大模型的局限性。
评估结果显示多模态大模型在一些任务上表现出色,如文本识别、文档问答,但在语义依赖、手写文本和多语言文本等方面存在挑战,需要进一步改进。
近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。
在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队深入研究了多模态大模型的OCR性能,并为此构建了一个专门的评测基准,命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验,揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。

项目地址:https://github.com/Yuliang-Liu/MultimodalOCR
评估结果显示,多模态大模型在一些任务上表现出色,如文本识别、文档问答等。然而,在语义依赖、手写文本和多语言文本等方面,这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时,性能较差。手写文本和多语言文本的识别也呈现出较大的挑战,可能与训练数据的不足有关。此外,高分辨率输入图像对于一些任务,如场景文本问答、文档问答和关键信息抽取,具有更好的表现。
为了解决这些限制,研究团队构建了OCRBench,以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导,并促使更多的改进和研究,以进一步提升其性能和应用领域的拓展。
在这个多模态大模型评估的新时代,OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具,以评估和改进多模态大模型的OCR能力,推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
全球热门AI软件JUNLALA正式进军中国,推出本地化功能
划重点:🚀JUNLALA的AI软件SUPERLALA进入中国市场,注重简单性、易用性和对中国用户的不可或缺性。📅2023年11月5日,JUNLALAApp计划在全球发布其最新版本,首次在中国正式推出,具备一系列本地化功能和界面。🌐SUPERLALA旨在通过以用户为中心的核心目标,为中国用户提供多样化的功能,实现顺畅的用户体验。站长网2023-11-06 10:57:300000曝iPhone17Pro迈入12GB内存时代 Plus被Slim版替代
分析师JeffPu近日揭示了iPhone17系列的新动态,该系列将包括四款机型:iPhone17、iPhone17Slim、iPhone17Pro和iPhone17ProMax。值得注意的是,Plus版本将不再出现,而是被Slim版本所替代,这一变化无疑给消费者带来了全新的选择。站长网2024-05-07 16:38:110000抖音上线跨境自营店铺,他们的进口生意做到哪一步了?
“虽然抖音(全球购)不容易做,但依然是我们的核心平台。”这句话来自一家海外保健品品牌抖音渠道的代运营方(后文化名为“F品牌”),该品牌来自美国,在国内保健品市场上占有超过30%的市场份额。2021年,F品牌成为抖音电商全球购第二批获邀入驻的海外品牌,目前月GMV已经做到千万级别。站长网2023-09-09 09:38:080000苹果确认漏洞阻止了儿童的屏幕时间限制
苹果确认存在漏洞,儿童能够绕过屏幕使用时间限制的设置。据《华尔街日报》报道,家长们发现通过家庭共享系统设置的一些屏幕使用时间限制无法正确保存数月。苹果本应在5月份解决这个问题,但该漏洞仍然存在。站长网2023-07-31 10:23:400000传统智能手机时代的完美句号!魅族21 PRO正式发布:4999元起
快科技2月29日消息,今晚,魅族在特别活动上正式发布了最后一款传统智能手机魅族21PRO。官方表示,该机是魅族智能手机时代的完美句号,在各方面都达到了魅族史上巅峰水准,并且带来了AI能力的加持,作为开启AllinAI战略的开创性过渡产品。外观方面,魅族21PRO依然维持了标志性的简约设计,前后都是纯平设计,中框也是直角方案,后摄依然是极简的竖向排列。站长网2024-02-29 20:24:180000