专注数学的开源大模型LLEMMA来了性能领先其他数学语言模型

2023-10-22 10:13 · 稿源：站长之家

要点:
1. LLEMMA 是一个开源的大型语言模型，专门设计用于解决数学问题，并且在性能上超越了其他领先的数学语言模型。
2. LLEMMA 能够利用工具和证明形式定理来解决数学问题，而无需进行额外的微调。
3. LLEMMA 的发布为其他研究人员提供了一个基础，可以在此基础上进一步研究和改进数学语言模型的能力。

站长之家（ChinaZ.com）10月22日消息:研究人员介绍了 LLEMMA，这是一个开源的大型语言模型，专门设计用于解决数学问题。与其他领先的数学语言模型相比，LLEMMA 在性能上表现出色，为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器，但它代表了专门化大型语言模型发展的重要一步，可以推动人工智能研究进入新的方向。

LLEMMA 是基于 Code Llama 构建的，Code Llama 是 Meta 公司开源的 Llama2模型的改进版本，经过在代码特定数据集上的微调。研究人员开发了两个版本的模型，一个有70亿参数，另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调，该数据集由科学论文、包含数学的网络数据和数学代码组成。

在实验中，研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能，超过了所有已知的开源模型。“我们得出结论，持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”

此外，LLEMMA 还展示了使用工具和证明形式定理的能力，而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题，这些工具可以通过提供外部知识来验证和纠正模型的答案，进一步增强模型的问题解决能力。

论文地址:https://arxiv.org/pdf/2310.10631.pdf

虽然已经有一些大型语言模型针对数学进行了微调，例如 Google 的 Minerva，但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva，即使在参数相等的情况下也能够表现得更好。

研究人员已经发布了他们的所有资源，包括70亿参数和340亿参数的模型，Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法，LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型，这使得其他研究人员可以在此基础上进行进一步的工作和改进。

LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分，而不是能够执行多个任务的通用模型。LLEMMA 的成果表明，通过改进数据和扩大数据集，即使是较小的模型也能够取得显著的结果。例如，LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。

研究人员指出，“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能，或在给定的能力水平下降低计算成本。” 这与其他研究表明，当小模型在一个由高质量样例组成的非常大的数据集上进行训练时，它们可以继续改进。

大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常，模型在数学基准测试中得分较高是因为 “数据污染”，即测试样例包含在训练数据中，基本上意味着模型已经记住了答案。

也有研究表明，当以稍微不同的方式提出同一个问题时，大型语言模型可能会给出不同的答案。一些科学家认为，由于其随机性质，大型语言模型基本上不适合解决数学问题。

LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例，但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”

发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就，尤其是模型和代码的发布，也可以为其他领域提供好处，通过为不同领域专门化的大型语言模型提供基础。

研究人员认为，“具有强大数学推理能力的语言模型是一些研究课题的前沿，例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Google扩充Gemma开源家族：推出CodeGemma和RecurrentGemma模型

Google宣布扩充其Gemma开源家族，推出了两个新的模型:CodeGemma和RecurrentGemma。这两个模型的推出旨在进一步提升Gemma家族在自然语言处理领域的能力。这一更新将进一步优化模型的性能，为用户提供更好的使用体验。

Gemma 模型
荐开源大模型Llama 3王者归来！最大底牌4000亿参数，性能直逼GPT-4

扎克伯格:「有了Llama3，全世界就能拥有最智能的AI。」ChatGPT拉开了大模型竞赛的序幕，Meta似乎要后来居上了。也许只有OpenAI的GPT-5才能压下开源模型了。

GPT-4 Llama3 AI
蚂蚁集团等发布开源大模型知识抽取框架OneKE

蚂蚁集团和浙江大学合作开发了一个名为OneKE的开源大模型知识抽取框架。该框架旨在帮助处理信息抽取、文本数据结构化和知识图谱构建等任务，为研究人员和开发者提供有力工具。他们将持续优化知识抽取的性能，并将相关技术应用到金融、医疗、政务等领域，推动可控生成技术的产业落地。
百度智能云发布千帆大模型一体机：预置十余个主流开源大模型

在百度智能云GENERATE全球生态大会上，百度智能云发布千帆大模型一体机，从算力资源角度分为通用版、昇腾版、昆仑芯版三个版本，为企业私有化部署大模型提供解决方案。千帆大模型一体机预置了百度自研的文心大模型，以及Llama、Baichuan、ChatGLM等十余个主流开源大模型。过去6个月，百度智能云生态伙伴的数量增长了5倍，伙伴们开发的300多款应用通过千帆应用商店”进入市场。

百度智能云 GENERATE全球生态大会千帆大模型一体机
开源大模型食用指南官网地址入口详细环境配置、模型部署、高效微调方法教程

开源大模型食用指南是一个旨在帮助用户学习和应用开源大模型的全流程指导教程。它提供了详细的环境配置、模型部署、高效微调等方法，以简化开源大模型的使用和应用，让更多普通学习者能够轻松上手。要获取更多详细信息并开始您的开源大模型之旅，请访问开源大模型食用指南官网。

开源大模型食用指南
Llama 3官网体验入口 Meta最新开源语言模型免费使用地址

MetaLlama3是Meta公司最新推出的一款开源大型语言模型。它在多项行业基准测试中表现出色，性能卓越，可支持广泛的使用场景，包括改善推理能力等新功能。要了解更多信息，请访问MetaLlama3官方网站。

Llama3 Meta 开源模型
Jamba官网体验入口最新高性能开源AI语言模型下载使用地址

Jamba是一款基于SSM-Transformer混合架构的开放语言模型，提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势，在推理基准测试中表现出色，同时在长上下文场景下提供3倍的吞吐量提升。作为基础模型，Jamba旨在供开发者微调、训练并构建定制化解决方案。

Jamba
谷歌发布新代码模型Code Gemma：参数小、性能强，硬件要求低！

谷歌最近发布了面向企业、开发人员的全新代码模型CodeGemma，该模型参数小、性能强，同时对硬件要求较低。CodeGemma共有基础预训练、指令微调和快速推理三个版本，在基准测试中展现出优异的性能表现。以上为谷歌发布的CodeGemma模型的相关内容，更多详细信息可参考开源地址和技术报告。

CodeGemma AI头条
荐发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

【新智元导读】前段时间，微软公布并开源了最新一代大模型WizardLM-2，号称性能堪比GPT-4。还未上线一天，模型权重和公告全被删除了，原因竟是......上周，微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待，微软团队承诺，会在测试完成后重新上线。

GPT-4 WizardLM-2
荐开源大模型AI代理操作系统：像Windos一样，操控AI代理

AutoGPT的出现让我们见识到了AI代理强大的自动化能力，并开创了一个全新的AI代理赛道。但在子任务调度、资源分配以及AI之间协作还有不少的难题。AIOS会引入更复杂的内存共享机制和层级缓存策略，以进一步优化AI代理的整体性能。

AI代理 AI代理大模型

今日大家都在搜的词：

热文

3 天
7天

专注数学的开源大模型LLEMMA来了 性能领先其他数学语言模型

今日大家都在搜的词：

热文

站长商机

专注数学的开源大模型LLEMMA来了性能领先其他数学语言模型