智源发布多模态模型中文评测基准CMMU
站长网2024-02-01 10:19:011阅
智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。
该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。
CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。

通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。
CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。
CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
项目地址:https://github.com/FlagOpen/CMMU
0001
评论列表
共(0)条相关推荐
周鸿祎:我不是针对李彦宏 开源一定会超过闭源
快科技4月20日消息,周鸿祎发文称,并不是针对李厂长(李彦宏),自己一直是开源的信徒。周鸿祎辟谣称,自己说开源好,是13号在哈佛讲的,李彦宏说闭源好,是16号在北京讲的。据了解,第二十七届哈佛中国论坛上,周鸿祎发表演讲称:我是一直相信开源的力量,至于说网上有些名人胡说八道,你们别被忽悠了。他说开源不如闭源好?连说这话的公司自己都是借助了开源的力量才成长到今天。”站长网2024-04-21 10:13:380000苹果史上最大:iPhone 16系列电池容量公布
快科技9月20日消息,今天iPhone16系列正式开卖,官网起售价是5999元。在iPhone16系列首销之际,巴西监管机构公布了iPhone16电池容量细节。具体来说,iPhone16电池是3561mAh,比iPhone15多了212mAh;iPhone16Plus电池是4674mAh,比iPhone15Plus多了291mAh。站长网2024-09-20 23:40:250000红魔电竞平板将发布:12英寸2.5K屏、10000mAh电池
红魔将在7月5日举行发布会,除了发布红魔8SPro手机外,还将带来其首款平板产品——红魔电竞平板。据官方透露,红魔电竞平板正面将采用一块12.1英寸大屏,分辨率为2.5K,拥有16:10黄金游戏比例。同时支持80W闪充,内置10000mAh电池。红魔电竞平板搭载骁龙8Gen2芯片,配备12GB256GB存储,内置双离心风扇,拥有红魔独特的主动风冷扇热系统。站长网2023-07-03 18:15:140000谷歌CEO:人工智能或超越互联网成最大的技术变革
文章概要:1.谷歌首席执行官皮查伊认为,人工智能将是我们一生中最大的技术变革,可能比互联网本身还要大。2.他在一份备忘录中强调了人工智能的重要性,并呼吁负责任地部署这项技术。3.谷歌一直在人工智能领域保持领先地位,但面临着来自OpenAI等竞争对手的挑战。站长网2023-09-07 16:58:130000