AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
把AlphaGo的核心算法用在大模型上,“高考”成绩直接提升了20多分。
在MATH数据集上,甚至让7B模型得分超过了GPT-4。
一项来自阿里的新研究引发关注:
研究人员用蒙特卡洛树搜索(MCTS)给大语言模型来了把性能增强,无需人工标注解题步骤,也能生成高质量数据,有效提升大模型的数学成绩。
论文发布,让不少网友重新关注到了蒙特卡洛树搜索这个在前大模型时代的明星算法。
有人直言:
蒙特卡洛树搜索 LLM是通往超级智能之路。
因为“树搜索本身更接近人类思维”。
用蒙特卡洛树搜索增强大模型
具体来说,阿里的研究人员提出了一种名为AlphaMath的方法,用大语言模型 MCTS来自动生成数学推理数据,并提升大模型在完成数学推理任务时的性能表现。
嗯,名字就很有蒙特卡洛树搜索内味儿了。
这里有个前情提要:
思维链(CoT)、思维程序(PoT)等方法已经被证明能够有效提高大模型的数学能力,但问题在于,它们都需要人类手动喂详细的解题步骤,即训练当中需要用到人工标注的高质量数学推理数据。
AlphaMath的一个核心目的就在于,在这个步骤中去人工化——数据格式就是简单的数学问题-答案对。
AlphaMath的技术路线主要涵盖三个阶段:
首先,研究人员收集了一个数学数据集,其中包含数学问题及其对应的正确答案。
然后,利用预训练的大模型(即策略模型)根据问题生成初始的解题路径,并通过MCTS对解题路径进行探索和改进,搜索更优的解题思路。
在MCTS过程中,同时训练一个价值模型来预测解题路径的质量,引导搜索方向。
最后,第二阶段获得的数据会被用来优化策略模型和价值模型。
这三个阶段会通过迭代优化地方式执行,以实现无需人工标注的自动数据生成和模型数学能力优化。
另外,研究人员还基于价值模型提出了Step-level Beam Search方法,以提高大模型的数学推理效率,平衡推理时的解题质量和运行时间。
简单来说,Step-level Beam Search是将MCTS推理过程做了个简化:
利用价值模型对候选路径进行评估,以更准确地选择高质量的解题路径。
通过逐步扩展和剪枝,在搜索过程中动态调整候选路径集合,提高搜索效率。
搜索过程中考虑了完整的解题路径,而不仅仅是局部的下一步动作,可以得到更全局优化的解题方案。
MATH成绩超GPT-4
为了验证AlphaMath的效果,研究人员设计了这样的实验:
对开源的数学大模型DeepSeekMath-Base-7B,用AlphaMath方法进行训练,并在GSM8K、MATH和Gaokao2023基准上,与GPT-4为代表的闭源模型、Llama2为代表的开源模型,以及专门做过数学SFT的MathCoder等模型进行对比。
结果显示,不依赖于人类(或GPT-4)标注的高质量数据,AlphaMath调教下的7B数学大模型,已经能在MATH上取得63%的分数,超过了GPT-4原版的42.5%和外挂代码解释器版的51.8%。
另外,在执行3轮MCTS并训练策略模型和价值模型的情况下,AlphaMath能让大模型在涵盖小学数学题的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。
还可以看到,Step-level Beam Search在MATH数据集上取得了良好的效率和准确率平衡。
论文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。
通讯作者Kai Fan本硕毕业于北京大学,2017年从杜克大学博士毕业,2018年加入阿里巴巴达摩院。
论文地址:
https://arxiv.org/abs/2405.03553
助播“变形记”:30岁上位,如今一天带货破亿
淘宝主播发财(原名高祥)把脸凑到手机跟前,无数条“某某进入直播间”的消息滚动。“根本来不及看人名。”他微微坐定,不再弓着腰盯住跳动的弹幕。这是谦寻旗下首个矩阵号直播间“蜜蜂惊喜社”开播的第一天,百万人瞬间涌入,六名打头阵的主播占据半个屏幕,曾做过主持人、产品专员的发财是其中一位。屏幕的另一边,用户们打量着“被选中”的新主播团……自此,“烈火烹油”式的一年开始了。站长网2023-05-15 17:32:570000人气依旧!安卓版 ChatGPT上线短短一天下载量达到100万
数据显示,ChatGPT安卓版应用程序上线一天就达到了100万次的下载量,超过了iOS版本当时发布时的23万次下载量。这也彰显了ChatGPT在安卓用户中的受欢迎程度。此前报道称ChatGPT在用户中的热度正在下降,但这些数据显示出不同的结果。值得注意的是,ChatGPT的网页流量下降与iOS应用程序的发布、学校暑假到来时间相吻合,这些数据不包括移动应用程序的使用情况。站长网2023-07-27 12:13:030000小冰公司推出AI数字员工“0元定制” 大模型小样本技术实现声音复刻
小冰公司宣布推出“0元定制计划”,为10000家符合条件的中小企业、领域达人及个体经营者,免费创建自己的AI数字员工,支持高拟真、低门槛、零成本的形象及声音复刻。据悉,目前,小冰小样本AI数字员工只面向企业开放。升级后的AI数字员工能进行语音和文本实时交互,有多种对话模式,可在网页(PC端移动端)、公众号、APP、直播间、VoIP、线下装置落地,几乎覆盖了企业全部应用场景。站长网2023-04-21 14:59:220000AI对英国就业的影响:10%-30%的工作可能被AI自动化替代
**划重点:**1.🌐英国教育部发布报告,认为10-30%的工作可能被AI自动化,而生成式人工智能的影响速度和广泛性可能超出先前预期。2.💼金融、法律和商业管理等领域的工作最有可能受到人工智能的影响,尤其是电话销售、法律专业人员和心理学家的岗位。3.🔄欧洲央行的研究表明,与以往技术浪潮不同,目前人工智能的应用在欧洲与高技能职位和年轻工作者的就业增长相关。站长网2023-12-14 10:45:030000