七大模型全部高考分数出炉：文科能上一本、理科最好是二本

站长网2024-07-19 10:30:400阅

快科技7月18日消息，日前由上海人工智能实验室旗下司南评测体系OpenCompass，对7个AI大模型进行了高考9个科目的全科目测试，从而能全面评测大模型实力。

此次参与测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral的开源模型，以及OpenAI的闭源模型GPT-4o。

以参加高考人数最多的河南省分数线作为参考，文科成绩最好的AI模型能够达到一本线，而理科成绩最好的模型则只能上二本。

文科状元由阿里通义千问大模型以546分的成绩夺得，而理科状元则是上海人工智能实验室商汤联合研发的浦语文曲星，得分为468.5分。

OpenAI的GPT-4o在文科上得分531分，排名第三，理科得分为467分，排名第二。

在评测中，AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力，但在理科科目中，数理推理能力普遍存在短板。

特别是在面对带图题目时，得分率仅有37.64%，显示出在图片理解和运用能力方面，所有大模型均存在较大提升空间。

阅卷老师指出，尽管大模型在基础知识掌握上表现出色，但在逻辑推理和知识灵活应用方面仍有较大差距。

例如在作答主观题时，大模型常常无法完整理解题干，导致答非所问；在解答数学题时，解题过程机械且逻辑性差。

七大模型全部高考分数出炉文科能上一本理科最好是二本

0000

评论列表

共(0)条

相关推荐

站长资讯
微软加强Bing AI图像生成内容限制以规避恐怖主义等内容
划重点:-📉最近对其Bing图像生成AI进行了调整，以提高其内容保护措施。-🤖尽管保护措施有所增强，但仍然存在一些问题，特别是在涉及恐怖主义等关键词时。-🔧这一举措引发了有趣的讨论，关于如何在向公众提供AI工具之前进行更严格的测试。最近，微软Bing搜索平台集成了基于DALL-E3的图片生成式AI功能，让用户可以通过文字提示来生成图像。
站长网2023-10-12 12:16:07
0000
站长资讯
这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练
最近，开源大模型社区再次「热闹」了起来，主角是AI写作初创公司HyperWrite开发的新模型Reflection70B。它的底层模型建立在MetaLlama3.170BInstruct上，并使用原始的Llamachat格式，确保了与现有工具和pipeline的兼容性。
站长网2024-09-10 16:26:01
0000
站长资讯
ChatGPT导致信息泄露后：三星将开发内部AI工具
快科技5月2日消息，早些时候，三星在引入ChatGPT不到20天内，就出现了3起与之相关的泄密事件。近日，三星在内部备忘录中告知员工，暂时禁止使用ChatGPT或其他生成式人工智能，避免类似的情况出现。内部备忘录显示，三星担心传输到谷歌Bard和微软Bing等人工智能平台的数据存储在外部服务器上，难以检索和删除，最终可能会泄露给其他用户。
站长网2023-05-03 09:11:26
0000
站长资讯
谷歌警告:Chrome 浏览器遭遇 CVE-2024-7965漏洞，需尽快更新!
最近，谷歌发出了警告，提醒用户关于其Chrome浏览器中的一个安全漏洞。这个漏洞被标记为CVE-2024-7965，已经在网络上被积极利用。根据谷歌的描述，这个漏洞是一种不当实现的错误，主要存在于V8JavaScript和WebAssembly引擎中。简而言之，攻击者可以通过精心制作的HTML页面，利用这个漏洞来进行远程攻击，从而造成堆内存损坏。
站长网2024-08-27 23:03:14
0000
站长资讯
同花顺申请注册CHATBOND商标
天眼查App显示，近日，浙江核新同花顺网络信息股份有限公司申请注册CHATBOND商标，国际分类为科学仪器、网站服务，当前商标状态为申请中。据了解，同花顺公司成立于2001年，主要客户涵盖金融市场的各层次参与主体。同花顺表示，将在现有的业务、技术、用户、数据等基础及优势上，积极探索、开发基于人工智能、大数据、云计算、金融工程、人机交互等前沿技术的产品及应用，形成公司新的业务模式和增长点。
站长网2023-05-05 14:18:02
0000