微软华人团队发布全新基准AGIEva AI考公指日可待
站长网2023-05-11 10:50:200阅
微软研究人员发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。
实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。

论文链接:https://arxiv.org/pdf/2304.06364.pdf
数据链接:https://github.com/microsoft/AGIEval
AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。
随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。 AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。
评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。
0000
评论列表
共(0)条相关推荐
东方甄选入淘:没带董宇辉,首秀带货1.75亿却不日播?
单场GMV达1.75亿,交易订单总数超过158万单,直播间粉丝增长至200万......这是东方甄选入淘首秀交出的成绩单。8月29日早上,东方甄选正式在淘宝开播,一直播到了晚上。俞敏洪、孙旭东两位高管不仅亲临直播间,还身穿厨师服在直播间进行厨艺比拼。尽管头部机构、主播跨平台开播已不是什么新鲜事,但东方甄选入淘直播依然备受关注。站长网2023-08-31 14:09:050000马云取代软银成为阿里巴巴最大股东
阿里巴巴近日发生了股权变动,马云和蔡崇信通过增持阿里股票,合计持股比例已超过软银,成为阿里巴巴的最大股东。据国内媒体报道,马云和蔡崇信在过去的一段时间里持续购买阿里巴巴的股票,但具体的增持数额尚未透露。这一增持行为使得两人的合计持股比例超过了软银,让马云成为了阿里巴巴的最大股东。站长网2024-01-24 16:44:12000075后创始人做童鞋,打造类目第一品牌,年销20亿
新生代父母精细化育儿,催生了生意新机遇。对于产品专业细分、健康安全方面的更高需求,在童鞋赛道尤其体现得淋漓尽致。孩子从学步、走路,到奔跑、跳跃、体能加强等不同成长阶段,相应的产品需求也不同。在如今的父母眼中,一双适合的童鞋,是陪伴孩子不断“升级打怪”的刚需。童鞋品牌泰兰尼斯,似乎更早预见到了这一趋势。站长网2024-08-04 09:03:050000软银 CEO 孙正义本周将签署 Arm 在纳斯达克的上市协议
据FinancialTimes报道,软银首席执行官孙正义本周将签署与纳斯达克的协议,让芯片设计公司Arm上市,从而启动最早于今年秋季进行的首次公开募股。站长网2023-04-12 14:08:140000周鸿祎:我不是针对李彦宏 开源一定会超过闭源
快科技4月20日消息,周鸿祎发文称,并不是针对李厂长(李彦宏),自己一直是开源的信徒。周鸿祎辟谣称,自己说开源好,是13号在哈佛讲的,李彦宏说闭源好,是16号在北京讲的。据了解,第二十七届哈佛中国论坛上,周鸿祎发表演讲称:我是一直相信开源的力量,至于说网上有些名人胡说八道,你们别被忽悠了。他说开源不如闭源好?连说这话的公司自己都是借助了开源的力量才成长到今天。”站长网2024-04-21 10:13:380000