七大模型全部高考分数出炉:文科能上一本、理科最好是二本
站长网2024-07-19 10:30:400阅
快科技7月18日消息,日前由上海人工智能实验室旗下司南评测体系OpenCompass,对7个AI大模型进行了高考9个科目的全科目测试,从而能全面评测大模型实力。
此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。
以参加高考人数最多的河南省分数线作为参考,文科成绩最好的AI模型能够达到一本线,而理科成绩最好的模型则只能上二本。
文科状元由阿里通义千问大模型以546分的成绩夺得,而理科状元则是上海人工智能实验室商汤联合研发的浦语文曲星,得分为468.5分。
OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。
在评测中,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。
特别是在面对带图题目时,得分率仅有37.64%,显示出在图片理解和运用能力方面,所有大模型均存在较大提升空间。
阅卷老师指出,尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。
例如在作答主观题时,大模型常常无法完整理解题干,导致答非所问;在解答数学题时,解题过程机械且逻辑性差。
0000
评论列表
共(0)条相关推荐
2023 年最受欢迎的 10 款人工智能工具:ChatGPT、Bard等上榜
概要:1.2023年被认为是人工智能(AI)元年,ChatGPT工具及其许多追随者的推出标志着科技的重大突破。据CNBC和Writerbuddy研究称,仅OpenAI的ChatGPT在2022年9月至2023年8月之间访问量达到140亿次。2.通过Writerbuddy.a进行的一项调查显示,AI工具在全球范围内得到广泛应用。站长网2023-12-26 10:28:390001Nothing 的下一款手机将全面采用人工智能技术
划重点:-Nothing首席执行官CarlPei表示,智能手机是未来的人工智能设备,人工智能可能改变我们使用手机的方式。-Nothing团队展示了一些演示,其中一个是类似OpenAI的GPT-4o演示,另一个是个性化、动态的主屏幕。-Nothing的目标是通过人工智能技术,将智能手机从应用中心的模式转变为一个可以随时了解用户需求和位置的系统。站长网2024-06-06 20:58:060000小红书1674粉丝,店铺卖600万怎么做到的?
│前言│前几天,内容山庄学长带着其他学员从成都飞到广州,第一个是想向我报喜,他们身边成员拿到的结果。第二是和我面对面深度沟通小红书卖货最新打法,在办公室里面我们深度沟通3小时,收获颇多。站长网2024-07-18 18:30:500000微软公布第三财季财报:营收619亿美元 同比增长了17%
站长之家(ChinaZ.com)4月26日消息:近日,微软发布了其2024财年第三季度财务报告,当季营收达到了惊人的619亿美元,折合人民币约为4481亿元,同比增长了17%。而利润方面,微软同样表现出色,实现了219亿美元的增长,涨幅高达20%,每股收益也达到了2.94美元,这一成绩全面超越了华尔街的预期。站长网2024-04-26 10:55:040000小鹏高管:智驾不是喊漂亮口号画好PPT就能实现的
快科技10月24日消息,在今日举办的小鹏P7AI智驾技术分享会暨首发AI天玑5.4.0先享会上,小鹏汽车副总裁兼自动驾驶负责人李力耘发表演讲,强调智能驾驶技术的发展不是靠空洞的口号或华丽的PPT就能实现的。他认为,智能驾驶需要扎实的工程量产经验和持续的积累,技术、团队和体系的每个环节都需要逐步完善,不能一蹴而就。李力耘提出,智驾技术已经进入端到端时代,这标志着从冷兵器时代向热兵器时代的转变。0000