智源发布多模态模型中文评测基准CMMU
站长网2024-02-01 10:19:011阅
智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。
该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。
CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。
通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。
CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。
CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
项目地址:https://github.com/FlagOpen/CMMU
0001
评论列表
共(0)条相关推荐
字节小游戏平台摸摸鱼将关闭 运营时间不到3年
摸摸鱼游戏平台在微信公号上发布公告,宣布将于2024年3月29日结束运营,届时虚拟资产将不再有效。公告中提到,玩家如果想继续玩已下载的游戏,可以从正规的应用商店或游戏官方网站等渠道重新安装相同的游戏软件,但是摸摸鱼平台无法为每个游戏提供游戏账号转移的解决方案,游戏账号和游戏进度可能会丢失。站长网2024-01-30 17:34:410000戴尔新款38寸显示器上市:4K分辨率、90W反向供电
快科技2月11日消息,戴尔新款带鱼屏显示器U3824DW目前已上市,售价为1149.99美元(约合人民币8272元)。据了解,这款显示器采用了37.5英寸IPS面板,21:9比例,分辨率为3840x1600,刷新率为60Hz,GtG响应时间为5msGtG。同时,它具有2000:1的动态对比度,覆盖了98%的DCI-P3和显示器P3色彩空间,支持300尼特峰值亮度。站长网2024-02-12 09:17:210000未成年人网络保护条例发布:禁止对未成年人网络欺凌
昨日,《未成年人网络保护条例》正式发布,自2024年1月1日起施行。该条例共包括7章60条,主要涵盖以下内容:站长网2023-10-25 09:31:3200003599元!Redmi K60至尊旗舰顶配版下周首销
RedmiK60至尊版正式上市,定价为2599元。其中,备受关注的24GB1TB顶配版本将于8月22日首次开售,售价为3599元。这一顶配版本成为业界首款24GB内存旗舰手机,被誉为性能之王。在硬件配置方面,RedmiK60至尊版搭载了第二代台积电4nm制程工艺的天玑9200旗舰级移动平台。0002华为自研专业绘画软件天生会画App正式版7月发布
站长之家(ChinaZ.com)5月16日消息:近日,在备受瞩目的华为夏季全场景新品发布会上,一款划时代的自研专业绘画软件“天生会画”正式揭开面纱,并开启了公测。据悉,“天生会画”App作为华为首个自研的专业绘画软件,已经率先在华为MatePadPro13.2英寸、MatePadPro11英寸2024款、MatePad11.5S等机型上开启公测。站长网2024-05-16 13:57:560000