专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型
要点:
1. LLEMMA 是一个开源的大型语言模型,专门设计用于解决数学问题,并且在性能上超越了其他领先的数学语言模型。
2. LLEMMA 能够利用工具和证明形式定理来解决数学问题,而无需进行额外的微调。
3. LLEMMA 的发布为其他研究人员提供了一个基础,可以在此基础上进一步研究和改进数学语言模型的能力。
研究人员介绍了 LLEMMA,这是一个开源的大型语言模型,专门设计用于解决数学问题。与其他领先的数学语言模型相比,LLEMMA 在性能上表现出色,为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器,但它代表了专门化大型语言模型发展的重要一步,可以推动人工智能研究进入新的方向。
LLEMMA 是基于 Code Llama 构建的,Code Llama 是 Meta 公司开源的 Llama2模型的改进版本,经过在代码特定数据集上的微调。研究人员开发了两个版本的模型,一个有70亿参数,另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调,该数据集由科学论文、包含数学的网络数据和数学代码组成。
在实验中,研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能,超过了所有已知的开源模型。“我们得出结论,持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”
此外,LLEMMA 还展示了使用工具和证明形式定理的能力,而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题,这些工具可以通过提供外部知识来验证和纠正模型的答案,进一步增强模型的问题解决能力。

论文地址:https://arxiv.org/pdf/2310.10631.pdf
虽然已经有一些大型语言模型针对数学进行了微调,例如 Google 的 Minerva,但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva,即使在参数相等的情况下也能够表现得更好。
研究人员已经发布了他们的所有资源,包括70亿参数和340亿参数的模型,Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法,LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型,这使得其他研究人员可以在此基础上进行进一步的工作和改进。
LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分,而不是能够执行多个任务的通用模型。LLEMMA 的成果表明,通过改进数据和扩大数据集,即使是较小的模型也能够取得显著的结果。例如,LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。
研究人员指出,“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能,或在给定的能力水平下降低计算成本。” 这与其他研究表明,当小模型在一个由高质量样例组成的非常大的数据集上进行训练时,它们可以继续改进。
大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常,模型在数学基准测试中得分较高是因为 “数据污染”,即测试样例包含在训练数据中,基本上意味着模型已经记住了答案。
也有研究表明,当以稍微不同的方式提出同一个问题时,大型语言模型可能会给出不同的答案。一些科学家认为,由于其随机性质,大型语言模型基本上不适合解决数学问题。
LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例,但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”
发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就,尤其是模型和代码的发布,也可以为其他领域提供好处,通过为不同领域专门化的大型语言模型提供基础。
研究人员认为,“具有强大数学推理能力的语言模型是一些研究课题的前沿,例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。
AI视频新玩法!AI复活亲人相聚!和童年的自己跨时空互动(附可灵实操教程)
最近,B站抖音上不少AI整活视频。自从可灵开放使用后,网上已经出现了不少创意的整活视频,从初级的尔康戴墨镜,紫薇吃汉堡,到紫禁之巅中二少年打斗直接画风大变成爱的抱抱。站长网2024-07-12 16:15:050008拼多多市值1847亿美金逼近阿里 马云内网罕见发言:坚信阿里会变会改
,在昨日拼多多发布优异业绩后,其股价大涨,市值接近1850亿美元,已逼近老牌电商巨头阿里巴巴的1945亿美元市值。这一情况在阿里内网引发了广泛讨论。有员工发帖表示“看不起眼的砍一刀,快成老大哥了”,并表示要与集团兄弟一起努力超越回来。马云此时在内网罕见发言,肯定拼多多过去几年的决策和执行,同时鼓励阿里人不要被外界环境影响志向,要坚信阿里能变、能改,迎难而上、砥砺前行。0000苹果版GPT或于2024年正式发布
9to5mac消息,据彭博社的马克·格尔曼报道,苹果正在开发自己的生成式人工智能,与此同时,微软正在向企业销售人工智能。格尔曼透露了一些新的细节,听起来像是苹果在内部开发一种可以与OpenAI的ChatGPT人工智能竞争的技术。站长网2023-07-24 12:04:430000阿里云实验将千问大模型接入工业机器人
据财联社消息,在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云的工程师正在进行实验,将千问大模型应用于工业机器人,使得机器人能够远程接受人类语言的指令来进行工作。这一技术能够通过钉钉的对话框来实现,在连接上机器人后,只需要在钉钉中输入指令,即可远程操控机器人工作。站长网2023-04-27 17:35:010000淘宝推出免单活动 活动时间为5月6日至5月9日
今日,一则关于“淘宝免单bug”的词条迅速登上微博热搜,引发网友的广泛讨论。这一话题的焦点源自多人收到了一条“淘宝免单短信”,通知用户今日下单的商品已被淘宝免单,并附赠了51元免单红包。起初,许多网友猜测这可能是淘宝系统的一个错误,但随后证实这其实是淘宝为庆祝其周年庆而特别推出的免单活动。活动时间为5月6日00:00至5月9日23:59,期间符合条件的用户都有机会享受免单福利。站长网2024-05-06 21:09:240002