华科大发布多模态大模型新基准 覆盖五大任务
要点:
华中科技大学等机构发布了多模态大模型新基准,对14个主流多模态大模型进行全面评估,覆盖五大任务、27个数据集。
研究团队深入研究了多模态大模型在OCR(光学字符识别)能力上的表现,提出了专门的评测基准OCRBench,揭示了在OCR领域中多模态大模型的局限性。
评估结果显示多模态大模型在一些任务上表现出色,如文本识别、文档问答,但在语义依赖、手写文本和多语言文本等方面存在挑战,需要进一步改进。
近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。
在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队深入研究了多模态大模型的OCR性能,并为此构建了一个专门的评测基准,命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验,揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。
项目地址:https://github.com/Yuliang-Liu/MultimodalOCR
评估结果显示,多模态大模型在一些任务上表现出色,如文本识别、文档问答等。然而,在语义依赖、手写文本和多语言文本等方面,这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时,性能较差。手写文本和多语言文本的识别也呈现出较大的挑战,可能与训练数据的不足有关。此外,高分辨率输入图像对于一些任务,如场景文本问答、文档问答和关键信息抽取,具有更好的表现。
为了解决这些限制,研究团队构建了OCRBench,以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导,并促使更多的改进和研究,以进一步提升其性能和应用领域的拓展。
在这个多模态大模型评估的新时代,OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具,以评估和改进多模态大模型的OCR能力,推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
联合国安理会将首次就人工智能风险举行会谈
据路透社报道,联合国安理会将于本周在纽约举行首次正式讨论人工智能(AI)的会议,英国将呼吁开展关于AI对全球和平与安全影响的国际对话。英国将在安理会会议上发表演讲,重点强调AI技术对全球和平与安全的潜在风险。英国将呼吁国际社会开展全面的讨论,以加强对AI的监管和控制,以确保其不会被滥用或导致灾难性后果。注:图片由midjourney生成站长网2023-07-18 00:04:310000游族网络与云从科技达成战略合作 将共同训练算法模型
5月18日,游族网络与云从科技签订了战略合作协议,将共同致力于针对游戏行业的人工智能大模型技术研究及应用实践。据悉,游族网络与云从将共同研究游戏垂直领域的LLM大模型,同时,基于游戏行业业务特性共同训练算法模型,深耕自然语言处理、计算机视觉、语音合成等技术领域在游戏行业的前沿创新探索,深入研究在游戏产业中的AI应用,将通用AI技术针对游戏场景进行优化。站长网2023-05-18 13:57:560000vivo X100入网 首发天玑9300或搭载卫星通信功能
根据3C认证信息的最新显示,vivoX100系列已经通过认证并具备120W有线快充功能。这款新机系列将首发天玑9300处理器。此外,vivoX100系列还将标配国产1.5k曲面屏,预计采用最新的京东方Q9基材,局部峰值亮度将突破1600nit。站长网2023-10-19 15:13:400000抖音电商双11“节盟计划”升级
抖音平台发布消息称,为帮助品牌享有更多流量,一举实现生意增长,抖音商城双11好物节升级“节盟计划”玩法,助力品牌方的营销达到“事半功倍”的效果。站长网2023-10-14 16:17:220000中国一汽联合阿里云通义千问打造大模型应用GPT-BI
中国一汽联合阿里云通义千问推出了大模型应用GPT-BI,用于数智化转型。该应用能够接收自然语言查询,并结合企业数据生成分析图表,准确率可达90%。与传统的BI系统相比,GPT-BI能够实现灵活的问答组合和数据穿透,实现“问答即洞察”的功能。站长网2024-01-23 09:29:530000