微软华人团队发布全新基准AGIEva AI考公指日可待
站长网2023-05-11 10:50:200阅
微软研究人员发布了一个新的基准测试AGIEval,用于评估基础模型在人类认知任务中的表现,包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。
实验结果显示,GPT-4在一些任务中的表现超过了人类平均水平,但在需要复杂推理或特定领域知识的任务中不太熟练。
论文链接:https://arxiv.org/pdf/2304.06364.pdf
数据链接:https://github.com/microsoft/AGIEval
AGIEval数据集主要遵循两个设计原则:强调人脑级别的认知任务设计,以与人类认知和解决问题密切相关的任务为中心。与现实世界场景的相关性,通过选择来自高标准的入学考试和资格考试的任务,可以确保评估结果能够反映个人在不同领域和背景下经常遇到的挑战的复杂性和实用性。
随着大型基础模型的能力越来越强,如何评估模型在人类认知任务中的表现变得越来越重要。 AGIEval基准测试可以帮助人们更好地了解模型的泛化能力和局限性。
评估模型在人类认知任务中的表现对于确保模型能够有效地处理复杂的、以人为本的任务至关重要。评估推理能力可以确保模型在不同环境下的可靠性和可信度。
0000
评论列表
共(0)条相关推荐
高通预热 2023 骁龙峰会:和骁龙一起,让 AI 触手可及
高通官方微博今日对将于10月25-26日举行的2023骁龙峰会进行了预热,预计本次大会将以AI为主题,届时骁龙8Gen3处理器有望亮相。图片来自@高通高通官方表示:「当世界走进AI时代,骁龙让AI走近你。骁龙的人工智能让触动人心的移动体验加速到来,从手机,到PC,再到音频,全方位颠覆你的感官。和骁龙一起,让AI触手可及。」站长网2023-10-16 23:51:130000Anthropic通过在AI模型的提示中加入请求来防止歧视
Anthropic采用一种新方法来防止人工智能(AI)对受保护群体进行歧视,通过在提示中加入请求,要求AI“非常非常非常非常”友好地对待,并且这一策略在降低歧视方面取得了成功。研究人员通过在提示中加入“干预”来告诉模型不要有偏见,例如通过表达即使由于技术问题包含了受保护特征,模型应该“想象”在做决策时去除这些特征。这种方法在许多测试案例中成功将歧视降低到几乎零。站长网2023-12-08 10:27:440000半托管、平台化,跨境电商硝烟再起
"ShopLikeaBillionaire!"(像亿万富翁一样购物)Temu今年再次豪掷千万美元登上NFL(美式橄榄球联盟)超级碗联赛,连续6次植入30s广告。伴随着轻快的音乐,动画主人公载歌载舞,印着Temu小箱子如有魔法,不仅帮人换新衣,还把世界染成Temu标志性的橙色。令美国观众感叹:“到底要在超级碗看多少次Temu广告!”站长网2024-02-21 17:48:370000从独占硬件到生成式AI,三星Galaxy S24系列影像设计解析
2024年1月18日,三星正式推出了GalaxyS24系列旗舰机型。作为三星在新一年的首批旗舰产品,GalaxyS24系列在外观上首次引入了钛金属中框设计,配合缎面质感的处理和大幅减薄的机身,使得其机身的档次感和握持舒适度再次迎来飞跃。站长网2024-01-20 12:07:380000我们网文圈,有属于自己的年终狂欢节
最近,不少网文名作的评论区重新变得热闹起来。这段时间,多部知名网文都迎来了终章后的再度更新,让人惊喜万分。不论是完结在2013年的老牌神书《凡人修仙传》,还是今年谢幕的现象之作《道诡异仙》,都是这波“爷青回”浪潮中的一员。0000