智源发布多模态模型中文评测基准CMMU
站长网2024-02-01 10:19:011阅
智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。
该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。
CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。
通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。
CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。
CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
项目地址:https://github.com/FlagOpen/CMMU
0001
评论列表
共(0)条相关推荐
北大ChatLaw团队推出大模型恋爱神器Machine_Mindset 支持MBTI 16种人格
北大ChatLaw团队与FarReelAILab合作开发了一款大模型恋爱神器,可以让大模型具备MBTI16种人格,实现自由定制。用户可以选择不同的性格类型,使大模型在回答问题时展现出不同的个性化回应。这项工作通过构建十万条MBTI数据集,并采用多阶段预训练、微调和DPO训练方法,为大模型注入性格特征。站长网2024-01-15 17:03:000000Meditron:先进的医学大语言模型
Meditron是一个基于Llama的大型医学语言模型,由Meta公司更新并发布。Meditron项目是完全开源的,包括数据、模型权重和配置,这意味着全球的研究人员和开发者都可以自由地访问、使用、修改和改进这一技术。站长网2024-05-01 14:26:5000015999元起、21项重大变化!iPhone 15系列售价配置全曝光:9月12日发布 选购指南来了
快科技8月27日消息,距离iPhone15发布会只剩下半个月左右的时间,近期有关新机的爆料进入高潮期。MR近日根据名记的马克古尔曼(MarkGurman)、DSCC的罗斯杨(RossYoung)、苹果分析师郭明錤(Ming-ChiKuo)等可靠来源的信息,汇总了iPhone15Pro版机型带来的21项重大变化。站长网2023-08-27 13:42:37000000后的新社交神器,人手一条“地摊货”?
夜幕降临,吴珊走进中国地质大学珠宝大楼。在武汉的大学生圈子里,这里算是一个物美价廉的小饰品商场。珠宝设计是中国地质大学的王牌专业之一,吴珊相信学生们的专业能力和“特殊门路”。走出珠宝城时,她手腕上多了一条由和田玉、南红玛瑙、绿松石串成的手串,三种颜色相映生辉。摊主报价247元,以大学生的消费水平来说算是价格不菲,但吴珊表示满意:“这是我自己一颗一颗挑的珠子,有个人特色。”站长网2023-06-29 19:07:410000ChatGPT之父最新预测!中国将有自己的特色大模型
快科技6月5日消息,在近日的2024年人工智能向善全球峰会(AIforGoodGlobalSummit)上,ChatGPT之父、OpenAI首席执行官奥特曼提出了对中国人工智能发展的最新预测。他认为,中国将发展出具有自身特色的大型语言模型,并在这一领域占据重要地位。奥特曼在视频连线中指出,目前中国正积极训练大量模型,这一趋势预计将继续。0000