专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型
要点:
1. LLEMMA 是一个开源的大型语言模型,专门设计用于解决数学问题,并且在性能上超越了其他领先的数学语言模型。
2. LLEMMA 能够利用工具和证明形式定理来解决数学问题,而无需进行额外的微调。
3. LLEMMA 的发布为其他研究人员提供了一个基础,可以在此基础上进一步研究和改进数学语言模型的能力。
研究人员介绍了 LLEMMA,这是一个开源的大型语言模型,专门设计用于解决数学问题。与其他领先的数学语言模型相比,LLEMMA 在性能上表现出色,为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器,但它代表了专门化大型语言模型发展的重要一步,可以推动人工智能研究进入新的方向。
LLEMMA 是基于 Code Llama 构建的,Code Llama 是 Meta 公司开源的 Llama2模型的改进版本,经过在代码特定数据集上的微调。研究人员开发了两个版本的模型,一个有70亿参数,另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调,该数据集由科学论文、包含数学的网络数据和数学代码组成。
在实验中,研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能,超过了所有已知的开源模型。“我们得出结论,持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”
此外,LLEMMA 还展示了使用工具和证明形式定理的能力,而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题,这些工具可以通过提供外部知识来验证和纠正模型的答案,进一步增强模型的问题解决能力。
论文地址:https://arxiv.org/pdf/2310.10631.pdf
虽然已经有一些大型语言模型针对数学进行了微调,例如 Google 的 Minerva,但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva,即使在参数相等的情况下也能够表现得更好。
研究人员已经发布了他们的所有资源,包括70亿参数和340亿参数的模型,Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法,LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型,这使得其他研究人员可以在此基础上进行进一步的工作和改进。
LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分,而不是能够执行多个任务的通用模型。LLEMMA 的成果表明,通过改进数据和扩大数据集,即使是较小的模型也能够取得显著的结果。例如,LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。
研究人员指出,“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能,或在给定的能力水平下降低计算成本。” 这与其他研究表明,当小模型在一个由高质量样例组成的非常大的数据集上进行训练时,它们可以继续改进。
大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常,模型在数学基准测试中得分较高是因为 “数据污染”,即测试样例包含在训练数据中,基本上意味着模型已经记住了答案。
也有研究表明,当以稍微不同的方式提出同一个问题时,大型语言模型可能会给出不同的答案。一些科学家认为,由于其随机性质,大型语言模型基本上不适合解决数学问题。
LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例,但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”
发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就,尤其是模型和代码的发布,也可以为其他领域提供好处,通过为不同领域专门化的大型语言模型提供基础。
研究人员认为,“具有强大数学推理能力的语言模型是一些研究课题的前沿,例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。
苹果市值一夜大涨超1.5万亿:iPhone将接入ChatGPT
在6月11日的美股市场交易中,三大指数收盘表现各异,纳指和标普500指数均实现了历史性的收盘新高,而道指则小幅下跌。然而,苹果公司的股价却一枝独秀,大涨超过7%,不仅刷新了历史新高,更实现了自2022年11月以来的最大单日涨幅。这一涨幅使得苹果的市值飙升了2151亿美元,折合人民币约15604亿元,总市值达到了惊人的3.18万亿美元。站长网2024-06-12 15:55:3100002023年数字经济:人工智能(AI光模块 ChatGPT 算力)最全资料库
我的头条名叫:股市数据库,要做最全的资料库数据完备!方便你们阅读我的文章,找到你要的内容。欢迎各位读者长期(关注我)站长网2023-05-23 11:23:380000主播小桀道歉:将所有下单电脑机器升级一个档位
近日,知名游戏主播“超级小桀”开设的电脑装机店引发了争议。部分网友质疑其产品的性价比。针对此事,超级小桀发布了一份道歉视频回应。他承认自己在很多方面做得不够好,没有考虑周全,对多年来支持他的观众感到愧疚。他表示非常后悔,接受所有人的批评和谴责。他还表示,装机店下单的机器至今没有发出,准备将所有下单的机器升级一个档位,并更换不合理的硬盘和升级电源。站长网2023-08-19 15:28:160000OpenAI 跟进推出版权保护计划:承诺保护客户应对版权侵权诉讼
站长之家(ChinaZ.com)11月7日消息:在业界的期待和社会各界的关注中,OpenAI今日正式宣布推出新的版权保护计划——版权屏障(CopyrightShield)。通过该计划,OpenAI将介入并为使用其产品的企业提供版权侵权辩护,特别是针对OpenAI开发者平台的「普遍可用」功能以及ChatGPT企业版用户所产生的作品。站长网2023-11-07 09:22:120000谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱
【新智元导读】谷歌团队认为,模型泛化能力无处不在,只要摸清条件,模型就不是随机鹦鹉。在特定情况下,人工智能模型会超越训练数据进行泛化。在人工智能研究中,这种现象被称为「顿悟」,而谷歌现在正在提供对最近发现的深入了解。站长网2023-09-03 08:59:380000