微软华人团队发布全新基准AGIEva AI考公指日可待
站长网2023-05-11 10:50:200阅
微软研究人员发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。
实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。
论文链接:https://arxiv.org/pdf/2304.06364.pdf
数据链接:https://github.com/microsoft/AGIEval
AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。
随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。 AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。
评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。
0000
评论列表
共(0)条相关推荐
剧情低俗!微信:下架微短剧《大佬 你女儿被婆婆家欺负惨了》
快科技6月4日消息,微信珊瑚安全官方公众号今天发布公告称,平台近期已发布专项治理公告,持续打击传播不良价值观等违规微短剧内容。在专项治理期间发现微短剧《大佬,你女儿被婆婆家欺负惨了》存在剧情低俗,台词、画面、情节等涉及使用残忍犯罪手段造成恶劣后果,刻意制造放大和渲染婆媳、男女矛盾。此外还传播违反公序良俗言论,渲染血腥暴力,破坏了平台良好生态,平台已将该剧下架,现予以公示。站长网2024-06-05 12:31:160000研究发现:BCG咨询师使用GPT-4解决业务问题表现不佳
文章概要:1.BCG咨询师使用OpenAI的GPT-4在解决业务问题时表现较差,研究发现其比不使用GPT-4的同行表现差23%。2.研究发现,即使在被警告可能出错后,参与者仍未对工具的输出提出挑战。3.观点认为,企业需要积极采用生成式人工智能(GenAI)以及如何管理与风险相关的问题。站长网2023-09-26 16:55:090000AI21 Labs 获得1.55亿美元融资,以推进企业生成式AI
文章概要:1)AI21Labs完成1.55亿美元C轮融资,估值14亿美元2)AI21专有的Jurassic-2模型被认为是世界上最大的LLM之一3)AI21最近与不同行业的客户合作,入选首个CBInsightsGenAI50榜单AI21Labs是一家以色列的大语言模型领先企业,日前宣布完成1.55亿美元的C轮融资,以加速其面向企业的基于文本的生成式人工智能服务的增长。站长网2023-08-31 09:48:160000春晚埋下的梗,我在小红书里读懂了
作为春晚刘谦魔术表演的“托”,主持人尼格买提却“没对上扑克牌”被网友们评为2024年春晚最搞笑的语言类节目。“那里面没对上,外面总该对上了吧,”春晚结束后,尼格买提在直播间里还原他“魔法失灵”后的心路历程,“结果我就这么拿了半天以后,我突然看了,喔!外面也没对上!赶紧!”幕后还原,让小尼的失误好笑程度加倍,“我什么时候看这一段能不笑”,一位网友评论自问自答道,“不看的时候”。站长网2024-02-15 10:18:240000vivo S18 Pro发布:售价3199元起
vivoS18Pro正式发布,售价分别为12GB256GB售价3199元,16GB256GB售价3499元,16GB512GB售价3699元。vivoS18Pro采用6.78英寸120Hz朝阳护眼屏,搭载联发科天玑9200芯片,前置5000万像素,电池5000毫安时并支持80W有线闪充。0001