563支AI队伍做了姜萍同一份数学试卷: 结果最高分仅34
站长网2024-06-17 01:54:330阅
快科技6月16日消息,在最近举办的阿里巴巴全球数学竞赛中,来自江苏省涟水中等专业学校的17岁女生姜萍不仅成功入围决赛,还以全球排名12的成绩成为了赛事历史上首个进入决赛的中专生。
不仅如此,今年的阿里数赛还首次开放了AI大模型挑战赛,共有563支由全球知名高校院所和企业组建的AI队伍与姜萍解答了同一份试卷。
最终AI队伍的平均分为18分,这一成绩已经接近人类选手的平均水平。但最高得分却仅为34分,与人类选手的最高分113分相差甚远,并且AI队伍在决赛中无一入围。
AI队伍中最高分由上海建平中学的涂津豪个人推出的AI方案获得,他采用了一种让多个大模型进行自问自答自验证”的方法,以寻求问题的最优解。
而西南交通大学的特工宇宙团队和中国人民大学的SuperCarryMan团队分别以27分的成绩位列AI挑战赛的亚军和季军。
尽管AI在数学竞赛中的表现显示出了一定的潜力,但专家分析指出,现有的大语言模型在完成复杂推理和严谨思考方面仍存在局限。
AI在逻辑推理能力和证明题的得分上表现不佳,这表明在深层次逻辑推理和创新思维方面,人类选手依然保持着明显的优势。
0000
评论列表
共(0)条相关推荐
特斯拉宣布涨价!雷军:只有特斯拉敢涨价 足见其市场地位
近日,特斯拉中国传出消息,其旗下ModelY车型将在4月1日迎来价格调整,预计售价将上涨5000元人民币。这一消息引发了汽车行业内的广泛关注,特别是同为行业领军人物的雷军对此发表了看法。站长网2024-03-21 23:19:580000南洋理工提出全新3D编辑算法GaussianEditor 2分钟内完成3D场景增删改
近年来,3D编辑在游戏和虚拟现实领域崭露头角,但长时间和低可控性一直是问题。南洋理工大学联合清华和商汤提出的GaussianEditor算法成功解决了这些问题。该算法采用了高斯溅射(GaussianSplatting)作为3D表示,与传统NeRF方法相比,实现了更高的可扩展性和编辑效率。这一突破为3D编辑领域注入了新活力。站长网2023-12-05 16:28:110000Screenshot to Code:GPT-4 Vision助力 将网页屏幕截图秒变干净代码!
在当今快节奏的软件开发领域,将设计原型迅速转化为实际可用的代码是开发者和设计师们共同面临的挑战。现在有了一项革命性的技术——"ScreenshottoCode",它利用GPT-4Vision的强大能力,让这一转变变得前所未有的简单和高效。站长网2024-03-12 12:11:130001内部群竟被广告号侵占?社群防骚扰极限大招
社群骚扰到底有多离谱?受访人行锋所在团队的两个内部测试群几乎被广告号占据,群里除了3名工作成员外,其余的群成员均是广告号。其中一个群的人数是69,另一个群多达116人。可见广告号的渗透之深。这一幕不禁令人苦笑。不是这3个人太重要又太难转化。而是这些广告账号已经入侵很多很多的社群,他们似乎并不关心特定社群的成员构成或其潜在价值。而更看重总体效应,并监控后台的总体数据表现。0000英伟达 Blackwell B100 GPU 或将采用 SK 海力士 HBM3e DRAM:因人工智能需求快速增长提前到 2024 年第二季度推出
站长之家(ChinaZ.com)10月16日消息:据报道,由于人工智能需求的大幅增加,英伟达计划将其下一代BlackwellB100GPU的发布日期从2024年第四季度提前到2024年第二季度。此外,该公司预计将使用SK海力士的HBM3eDRAM来驱动其最新的芯片。站长网2023-10-16 23:02:370000