AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
把AlphaGo的核心算法用在大模型上,“高考”成绩直接提升了20多分。
在MATH数据集上,甚至让7B模型得分超过了GPT-4。
一项来自阿里的新研究引发关注:
研究人员用蒙特卡洛树搜索(MCTS)给大语言模型来了把性能增强,无需人工标注解题步骤,也能生成高质量数据,有效提升大模型的数学成绩。
论文发布,让不少网友重新关注到了蒙特卡洛树搜索这个在前大模型时代的明星算法。
有人直言:
蒙特卡洛树搜索 LLM是通往超级智能之路。
因为“树搜索本身更接近人类思维”。
用蒙特卡洛树搜索增强大模型
具体来说,阿里的研究人员提出了一种名为AlphaMath的方法,用大语言模型 MCTS来自动生成数学推理数据,并提升大模型在完成数学推理任务时的性能表现。
嗯,名字就很有蒙特卡洛树搜索内味儿了。
这里有个前情提要:
思维链(CoT)、思维程序(PoT)等方法已经被证明能够有效提高大模型的数学能力,但问题在于,它们都需要人类手动喂详细的解题步骤,即训练当中需要用到人工标注的高质量数学推理数据。
AlphaMath的一个核心目的就在于,在这个步骤中去人工化——数据格式就是简单的数学问题-答案对。
AlphaMath的技术路线主要涵盖三个阶段:
首先,研究人员收集了一个数学数据集,其中包含数学问题及其对应的正确答案。
然后,利用预训练的大模型(即策略模型)根据问题生成初始的解题路径,并通过MCTS对解题路径进行探索和改进,搜索更优的解题思路。
在MCTS过程中,同时训练一个价值模型来预测解题路径的质量,引导搜索方向。
最后,第二阶段获得的数据会被用来优化策略模型和价值模型。
这三个阶段会通过迭代优化地方式执行,以实现无需人工标注的自动数据生成和模型数学能力优化。
另外,研究人员还基于价值模型提出了Step-level Beam Search方法,以提高大模型的数学推理效率,平衡推理时的解题质量和运行时间。
简单来说,Step-level Beam Search是将MCTS推理过程做了个简化:
利用价值模型对候选路径进行评估,以更准确地选择高质量的解题路径。
通过逐步扩展和剪枝,在搜索过程中动态调整候选路径集合,提高搜索效率。
搜索过程中考虑了完整的解题路径,而不仅仅是局部的下一步动作,可以得到更全局优化的解题方案。
MATH成绩超GPT-4
为了验证AlphaMath的效果,研究人员设计了这样的实验:
对开源的数学大模型DeepSeekMath-Base-7B,用AlphaMath方法进行训练,并在GSM8K、MATH和Gaokao2023基准上,与GPT-4为代表的闭源模型、Llama2为代表的开源模型,以及专门做过数学SFT的MathCoder等模型进行对比。
结果显示,不依赖于人类(或GPT-4)标注的高质量数据,AlphaMath调教下的7B数学大模型,已经能在MATH上取得63%的分数,超过了GPT-4原版的42.5%和外挂代码解释器版的51.8%。
另外,在执行3轮MCTS并训练策略模型和价值模型的情况下,AlphaMath能让大模型在涵盖小学数学题的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。
还可以看到,Step-level Beam Search在MATH数据集上取得了良好的效率和准确率平衡。
论文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。
通讯作者Kai Fan本硕毕业于北京大学,2017年从杜克大学博士毕业,2018年加入阿里巴巴达摩院。
论文地址:
https://arxiv.org/abs/2405.03553
苹果帮截图带灵动岛5块一张引热议:用iPhone是高人一等吗
快科技5月29日消息,今日,词条#苹果帮截图5块一张#冲上微博热搜榜第二,引来众多网友围观热议。根据词条下热门微博显示,苹果iPhone15带灵动岛截图5元一张,截图范围包括备忘录、朋友圈、网易云等软件。在二手平台搜索发现,提供苹果截图的服务的卖家还有很多,价格基本都是1元起步,有额外需求的价格翻倍。站长网2024-05-29 21:35:480000搞笑达人“李炮儿”勇闯《中国好声音》,涨粉千万还差点出道?
搞笑短视频达人接受粉丝提出的挑战,参加《中国好声音》,竟一路过关斩将到全国总决赛,还涨粉近千万?这不是段子,这是李炮儿的真实经历。近日,李炮儿参加《中国好声音》的系列视频火爆出圈,如今其全网粉丝数已经近2000万,仅抖音就达到了1400万。从拍摄第一个参加《中国好声音》的视频至今,仅抖音就涨粉900多万。站长网2023-07-16 18:49:280002一加Ace 3 Pro搭载全新1.5K东方屏:5大体验升级
快科技6月26日消息,今天,一加宣布Ace3Pro搭载全新一代1.5K东方屏,拥有5大屏幕体验升级。据悉,一加全新一代1.5K东方屏大幅提升极端场景显示效果,大幅提升多角度色彩表现,大幅提升能效表现,大幅提升护眼体验,大幅提升雨水触控。站长网2024-06-26 16:21:360001教皇警告人工智能风险,以防止 “暴力和歧视危害根深蒂固”
本文概要:1.教皇方济各强调人工智能对人类生活的潜在影响,呼吁负责任使用、伦理反思和警惕负面后果。2.教皇提醒社会要警惕人工智能可能导致“暴力和歧视的逻辑”对弱势和被排除群体的危害。3.教皇呼吁对人工智能的伦理反思应扩展至教育和法律领域,以确保其服务于人类和保护共同家园。站长网2023-08-09 15:47:480000高合汽车回应FF起诉:否认侵犯商业秘密和不正当竞争
法拉第未来(FF公司)今日宣布,已向中国广东省深圳市中级人民法院提起诉讼,指控其前高管、华人运通创始人丁磊及其关联公司侵犯了FF公司的商业秘密,并存在不正当竞争行为。对此,高合汽车迅速作出回应,坚决否认了所有指控。站长网2024-03-05 16:12:520000