微软华人团队发布全新基准AGIEva AI考公指日可待
站长网2023-05-11 10:50:200阅
微软研究人员发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。
实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。

论文链接:https://arxiv.org/pdf/2304.06364.pdf
数据链接:https://github.com/microsoft/AGIEval
AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。
随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。 AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。
评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。
0000
评论列表
共(0)条相关推荐
LLaMA 2:最新开源 GPT 模型的功能和演示教程
本文将为大家介绍最新发布的GPT模型LLaMA2的新功能和更新内容。LLaMA2在原始模型基础上进行了改进,包括使用40%更大的数据集、经过强化学习和人类反馈调优的聊天变体以及可扩展到700亿参数的模型。文章还会为大家展示如何在PaperspaceGradient笔记本中运行LLaMA2模型的演示。型号概览站长网2023-07-20 15:44:200000数据:三分之二制药业顶级公司禁止员工使用 ChatGPT
划重点:⚡️调查显示,20家最大制药公司中有三分之二禁止员工使用ChatGPT,担心敏感内部数据安全问题。⚡️尽管83%的生命科学专业人士认为ChatGPT被"高估",但仍有许多人定期使用该技术。⚡️制药公司对AI主要视为降低成本的手段,同时对数据安全和隐私保护有所顾虑。站长网2024-04-25 21:40:590000从iPhone13换Magic5 pro使用半月后感受!
换新机第一感受:屏幕超大,缪斯之眼的星轮三摄辨识度超高,拿在手里朋友一直问你这啥手机摄像头这么大,拍照一定很吧!这次入手的是荣耀Magic5pro亮黑色16512换新机的主要原因还是没用多久,也没拍多少照片感觉就是内存不够用了,还有就是女朋友一直要跟我换手机用,干脆直接给她自己换新手机站长网2023-05-24 15:03:100001FF推出法拉使命“Mission Farad”平台
昨日,FaradayFuture(FF)宣布推出“MissionFarad”平台(“法拉使命”)。该平台基于Web3.0技术打造,将充分联合开发者、创造者、用户和投资者,实现价值共创和收益共享。“法拉使命”将为FF用户带来更多创新体验和机会。它包括4个关键部分:开源的共创技术平台、共享的商业模式、合伙制的治理结构以及双赢的产品组合。站长网2023-05-23 08:37:470000上海:个人和单位购买新能源车可继续免费上牌
快科技12月15日消息,近日,上海市政府办公厅转发市发展改革委等五部门制订的《上海市鼓励购买和使用新能源汽车实施办法》,对消费者购买和使用新能源汽车继续给予政策支持。实施办法总体上延续了上一轮政策安排,对个人用户和单位用户购买新能源汽车继续给予免费专用牌照额度支持,同时有以下三处修订:一是调整部分个人用户的申领要求。0000