七大模型全部高考分数出炉:文科能上一本、理科最好是二本
站长网2024-07-19 10:30:400阅
快科技7月18日消息,日前由上海人工智能实验室旗下司南评测体系OpenCompass,对7个AI大模型进行了高考9个科目的全科目测试,从而能全面评测大模型实力。
此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。
以参加高考人数最多的河南省分数线作为参考,文科成绩最好的AI模型能够达到一本线,而理科成绩最好的模型则只能上二本。
文科状元由阿里通义千问大模型以546分的成绩夺得,而理科状元则是上海人工智能实验室商汤联合研发的浦语文曲星,得分为468.5分。
OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。
在评测中,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。
特别是在面对带图题目时,得分率仅有37.64%,显示出在图片理解和运用能力方面,所有大模型均存在较大提升空间。
阅卷老师指出,尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。
例如在作答主观题时,大模型常常无法完整理解题干,导致答非所问;在解答数学题时,解题过程机械且逻辑性差。
0000
评论列表
共(0)条相关推荐
AMD 首席执行官谈人工智能:鉴于市场发展如此之快,我不相信护城河的存在
站长之家(ChinaZ.com)9月28日消息:AMD首席执行官苏姿丰博士认为,人工智能发展得太快了,任何竞争护城河都无法确定。苏姿丰在2023年CodeConference上表示:「当市场变化如此之快时,我不相信有什么护城河。」这意味着尽管英伟达已成为人工智能领域中的佼佼者,但该领域比表面看起来更加开放。站长网2023-09-29 09:43:570000苹果智能戒指再曝光 研发已经取得显著进展
在2月22日的一份新报告中,苹果公司正在秘密研发一款名为“苹果Ring”的智能戒指,其目的可能是为了与三星即将发布的智能指环展开竞争。据悉,这款新型可穿戴设备是设计用来佩戴在手指上的,主要功能是追踪用户的健康数据。站长网2024-02-22 11:20:470000谷歌拟在 5 年内完成AI芯片自主研发 放弃博通供应
据国外媒体报道,知情人士透露,谷歌计划最早在2027年放弃芯片供应商博通,转为自主研发AI服务器芯片。今年早些时候,谷歌与博通就芯片定价问题未达成一致,导致谷歌做出放弃博通的决定。消息传出后,业内对谷歌的此举给予广泛关注。分析认为,自主设计TPU芯片有助谷歌每年节省数十亿美元成本。目前,谷歌正在大力投入AI技术研发,其中芯片研发成本Especially高。放弃博通供应,有助降低成本支出。站长网2023-09-22 11:14:320000微信:进一步加强发布血腥暴力不当内容的治理力度
昨日,微信官方表示,近日,网红博主虐猫并在网络传播相关视频一事引发社会关注,根据公安机关通报,该名博主已被依法予以治安拘留。虐杀动物并制作、传播相关血腥暴力内容,甚至以牟利为目的在网络上进行诱导传播的行为,将会对其他用户产生不良引导,引发公众不安情绪,严重破坏了网络传播秩序。站长网2023-05-12 08:48:380000新型稀疏LVLM架构MoE-LLaVA 解决模型稀疏性相关的性能下降问题
要点:1、MoE-LLaVA是一种新型稀疏LVLM架构,使用路由算法仅激活top-k专家。2、MoE-LLaVA在各种视觉理解数据集上表现相当甚至超越了LLaVA-1.5-7B。3、MoE-LLaVA采用三阶段的训练策略,以降低稀疏模型学习的难度。站长网2024-01-31 14:29:580000