563支AI队伍做了姜萍同一份数学试卷: 结果最高分仅34
站长网2024-06-17 01:54:330阅
快科技6月16日消息,在最近举办的阿里巴巴全球数学竞赛中,来自江苏省涟水中等专业学校的17岁女生姜萍不仅成功入围决赛,还以全球排名12的成绩成为了赛事历史上首个进入决赛的中专生。
不仅如此,今年的阿里数赛还首次开放了AI大模型挑战赛,共有563支由全球知名高校院所和企业组建的AI队伍与姜萍解答了同一份试卷。
最终AI队伍的平均分为18分,这一成绩已经接近人类选手的平均水平。但最高得分却仅为34分,与人类选手的最高分113分相差甚远,并且AI队伍在决赛中无一入围。
AI队伍中最高分由上海建平中学的涂津豪个人推出的AI方案获得,他采用了一种让多个大模型进行自问自答自验证”的方法,以寻求问题的最优解。
而西南交通大学的特工宇宙团队和中国人民大学的SuperCarryMan团队分别以27分的成绩位列AI挑战赛的亚军和季军。
尽管AI在数学竞赛中的表现显示出了一定的潜力,但专家分析指出,现有的大语言模型在完成复杂推理和严谨思考方面仍存在局限。
AI在逻辑推理能力和证明题的得分上表现不佳,这表明在深层次逻辑推理和创新思维方面,人类选手依然保持着明显的优势。
0000
评论列表
共(0)条相关推荐
国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七
【新智元导读】真正与GPT-4o齐头并进的国产大模型来了!刚刚,LMSYS揭开最新榜单,黑马Yi-Large在中文分榜上与GPT-4o并列第一,而在总榜上位列世界第七,紧追国际第一阵营,并登上了国内大模型盲测榜首。站长网2024-05-22 01:00:540001美图旗下美颜相机推出“AI人像精修”专区 涵盖6大AI人像功能
8月8日,美图公司旗下美颜相机推出“AI人像精修”专区,集合了用户最高频使用的6大AI人像功能:AI去双下巴、AI表情、AI换背景、AI一键美颜、AI头发、AI路人消除。美颜相机方面介绍,首批进入专区的6大AI人像功能,结合了用户日常生活中的痛点,能带来更好的人像拍照体验。站长网2023-08-09 08:12:430000马斯克称xAI将于本周开源AI聊天机器人Grok
今日,马斯克表示,xAI将于本周开源AI聊天机器人Grok。xAI是埃隆・马斯克成立的人工智能公司,于2023年7月12日宣布成立。该公司的目标是专注于回答更深层次的科学问题,希望未来可以利用人工智能帮助人们解决复杂的科学和数学问题,并且“理解”宇宙。2024年1月24日,马斯克xAI团队即将发布首个AI大模型Grok1.5。站长网2024-03-11 17:10:150001GPT Store上线即乱:山寨、刷量、违禁内容层出
万万没想到,刚开业的GPTStore,竟是以“乱”出名的。这不,在“趋势榜(Trending)”中,赫然出现了一个名为NewGPT-5的应用,而且是位居第一的那种。然而,眼尖的网友立马发现了端倪——假的!OpenAI官方这边,对这事处理的速度也是极其得快,假GPT5现在已经是完全消失的状态。即使是点击原来的链接,“打开方式”都是404了:站长网2024-01-13 14:58:15000230天涨粉548万,这届网友爱上了抽象训狗
谁能料到,现如今的狗界都有变形记了。那些狂躁咬人、不服管教、劣迹斑斑的恶犬们,到了这场狗界“真人秀”,都老老实实地被上了一课,往日凶狠不吝的眼神,也逐渐变得清澈乖巧。这强烈的对比反差,皆是一位名叫“潘宏爱玩狗”训狗师的“教学成果”,他的手段粗暴且直接,先是一顿棍棒教育让恶犬服软,再建立口令规则让狗听话。也因此,“潘宏爱玩狗”的训狗基地被称之为“狗界缅北”,再超雄的恶狗送到这里后都会被驯化。站长网2024-10-25 09:08:150000