专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型
要点:
1. LLEMMA 是一个开源的大型语言模型,专门设计用于解决数学问题,并且在性能上超越了其他领先的数学语言模型。
2. LLEMMA 能够利用工具和证明形式定理来解决数学问题,而无需进行额外的微调。
3. LLEMMA 的发布为其他研究人员提供了一个基础,可以在此基础上进一步研究和改进数学语言模型的能力。
研究人员介绍了 LLEMMA,这是一个开源的大型语言模型,专门设计用于解决数学问题。与其他领先的数学语言模型相比,LLEMMA 在性能上表现出色,为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器,但它代表了专门化大型语言模型发展的重要一步,可以推动人工智能研究进入新的方向。
LLEMMA 是基于 Code Llama 构建的,Code Llama 是 Meta 公司开源的 Llama2模型的改进版本,经过在代码特定数据集上的微调。研究人员开发了两个版本的模型,一个有70亿参数,另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调,该数据集由科学论文、包含数学的网络数据和数学代码组成。
在实验中,研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能,超过了所有已知的开源模型。“我们得出结论,持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”
此外,LLEMMA 还展示了使用工具和证明形式定理的能力,而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题,这些工具可以通过提供外部知识来验证和纠正模型的答案,进一步增强模型的问题解决能力。

论文地址:https://arxiv.org/pdf/2310.10631.pdf
虽然已经有一些大型语言模型针对数学进行了微调,例如 Google 的 Minerva,但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva,即使在参数相等的情况下也能够表现得更好。
研究人员已经发布了他们的所有资源,包括70亿参数和340亿参数的模型,Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法,LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型,这使得其他研究人员可以在此基础上进行进一步的工作和改进。
LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分,而不是能够执行多个任务的通用模型。LLEMMA 的成果表明,通过改进数据和扩大数据集,即使是较小的模型也能够取得显著的结果。例如,LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。
研究人员指出,“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能,或在给定的能力水平下降低计算成本。” 这与其他研究表明,当小模型在一个由高质量样例组成的非常大的数据集上进行训练时,它们可以继续改进。
大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常,模型在数学基准测试中得分较高是因为 “数据污染”,即测试样例包含在训练数据中,基本上意味着模型已经记住了答案。
也有研究表明,当以稍微不同的方式提出同一个问题时,大型语言模型可能会给出不同的答案。一些科学家认为,由于其随机性质,大型语言模型基本上不适合解决数学问题。
LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例,但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”
发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就,尤其是模型和代码的发布,也可以为其他领域提供好处,通过为不同领域专门化的大型语言模型提供基础。
研究人员认为,“具有强大数学推理能力的语言模型是一些研究课题的前沿,例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。
Essential AI与Google Cloud达成全新多年合作伙伴关系,加速全栈生成式AI产品发展
**划重点:**1.🤝EssentialAI与GoogleCloud宣布新的多年合作伙伴关系,以简化和扩展全栈生成人工智能产品的开发。2.🚀EssentialAI将利用GoogleCloud的TPUv5p进行模型训练,以提供定制的大型语言模型(LLMs),提高企业生产力。站长网2024-01-30 17:09:190000队史首个连冠!成都AG超玩会夺得2024KPL年度总决赛冠军
快科技11月16日消息,成都AG超玩会夺得2024KPL年总决赛总冠军!在今晚的比赛中,成都AG超玩会以4:2比分战胜重庆狼队,成为2024年KPL年度总决赛总冠军,捧起第四座冠军奖杯,达成队史首个连冠。从2023年挑战者杯到2024年KPL年度总决赛,成都AG超玩会连续五进决赛。他们曾在春日的大连折戟,而在秋天的北京终于收获胜利的果实。0000香港大模型初创公司 Weitu AI 完成天使轮融资 估值一亿美金
AI产品研发的香港初创公司WeituAI今日宣布完成天使轮融资,估值一亿美金。本轮融资由拥有全球数亿月活的互联网科技公司和著名天使投资人联合领投。站长网2024-02-26 10:36:350001谷歌开源Magika:AI驱动文件类型识别系统,提升用户安全
划重点:🔍AI技术:Magika使用自定义深度学习模型,毫秒级内准确识别100文件类型。🛡️提升安全:在Google内部应用于Gmail、Drive和安全浏览,强化文件安全检查和内容策略扫描。🔄开源易用:支持多种文件类型、高效性能,即将与VirusTotal集成,GitHub提供代码和模型。站长网2024-02-19 11:31:530000“股神”巴菲特罕见发声:谈论的却是修改遗嘱
快科技6月29日消息,据财联社报道,当地时间周五早晨,美媒刊发知名美国投资人、93岁的奥马哈股神”沃伦巴菲特的专访文章,让人没想到的是,主题竟然是遗嘱相关的内容。据悉,随着年龄渐长,巴菲特公开发声的次数越来越少,一年到头除了在5月股东大会上坚持露脸回答问题外,其余时间几乎意识不到他依旧存在。0000