华科大发布多模态大模型新基准 覆盖五大任务
要点:
华中科技大学等机构发布了多模态大模型新基准,对14个主流多模态大模型进行全面评估,覆盖五大任务、27个数据集。
研究团队深入研究了多模态大模型在OCR(光学字符识别)能力上的表现,提出了专门的评测基准OCRBench,揭示了在OCR领域中多模态大模型的局限性。
评估结果显示多模态大模型在一些任务上表现出色,如文本识别、文档问答,但在语义依赖、手写文本和多语言文本等方面存在挑战,需要进一步改进。
近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。
在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队深入研究了多模态大模型的OCR性能,并为此构建了一个专门的评测基准,命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验,揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。
项目地址:https://github.com/Yuliang-Liu/MultimodalOCR
评估结果显示,多模态大模型在一些任务上表现出色,如文本识别、文档问答等。然而,在语义依赖、手写文本和多语言文本等方面,这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时,性能较差。手写文本和多语言文本的识别也呈现出较大的挑战,可能与训练数据的不足有关。此外,高分辨率输入图像对于一些任务,如场景文本问答、文档问答和关键信息抽取,具有更好的表现。
为了解决这些限制,研究团队构建了OCRBench,以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导,并促使更多的改进和研究,以进一步提升其性能和应用领域的拓展。
在这个多模态大模型评估的新时代,OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具,以评估和改进多模态大模型的OCR能力,推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
谷歌创始人重返一线投身AI!坦言当时太胆小 错失先机
快科技9月13日消息,据媒体报道,谷歌联合创始人谢尔盖布林在2024年All-In峰会上接受公开采访时确认,他已重返谷歌一线工作,专注于人工智能相关研发。布林表示,当前AI技术的快速发展令人震惊,作为计算机科学家,他不愿错过这场技术革命。布林在访谈中提到,尽管谷歌一直被视为AI领域的先驱,但在实际应用方面却显得较为保守。0000AI 技术推动用户积极部署边缘数据中心 2027 年市场将达 111 亿美元
据IDC日前公布的数据显示,2023年上半年,中国SDS(软件定义存储市场)市场同比增长7.7%,未来五年,中国「软件所定义的市场」将以8.3%的复合年增长率增长;2027年市场容量预计接近38亿美元。站长网2023-10-18 21:20:090000AI视野:大模型训练芯片H200发布;GPT5已在训练中;阿里发布夸克大模型;GPT-4作弊被抓
📰🤖📢AI新鲜事最强大模型训练芯片H200发布英伟达发布基于Hopper架构的新一代AI处理器H200,内存带宽提升至141GB和4.8TB/s,推理速度提高2倍,将于2024年第二季度开始发货。【AiBase提要:】🚀性能提升:H200采用Hopper架构,内存带宽提升至141GB和4.8TB/s,相较H100推理速度提高2倍。站长网2023-11-14 15:44:330000卢伟冰返场直播定档11月9日:回应为何不发小米15销量战报
小米11月直播:卢伟冰回应销售谜团小米今天宣布,卢伟冰将在11月9日晚8点进行直播。在此次直播中,卢伟冰将揭秘小米15销量战报背后的原因。此前,小米14系列销量一直是谜团,官方仅公布了首销5分钟内销量为小米13系列6倍的数据。雷军上周五的直播中透露,他不担心小米15的销售,其销售情况是过去几代产品中最好的。0000百度搜索回应被必应超越:数据很离谱 将保持领先地位
据澎湃新闻报道,对于近期“百度桌面搜索中国市场份额被微软旗下必应超越”一事,百度集团副总裁、搜索平台负责人肖阳回应称,这是一个很离谱的数据,过去一段时间百度搜索在桌面端市场份额的市场份额是保持稳定领先的。肖阳强调,百度对中文搜索引擎市场保持领先地位充满信心。站长网2023-05-26 08:31:250000