ToRA：融合自然语言推理与外部工具数学推理能力增强

2023-10-07 17:50 · 稿源：站长之家

文章概要:
- 清华大学与微软合作开发的ToRA是一款革命性的工具集成推理代理，旨在通过将自然语言推理与外部计算工具结合，解决复杂数学问题。
- ToRA模型经过训练，成功在多个数学推理数据集上取得了显著的性能提升，特别是在MATHS竞赛级数据集上，表现出高精度。
- 这一研究为数学问题求解领域带来了重大突破，通过无缝集成自然语言理解和工具使用，ToRA代理在各种数学推理任务上实现了最先进的性能。

站长之家（ChinaZ.com）10月7日消息:随着大型语言模型的出现，人工智能和数学问题求解领域取得了显著进展。然而，这些模型在面对复杂的数学挑战时仍然存在问题。为了解决这个问题，清华大学与微软的研究人员推出了ToRA，这是一种被称为“工具集成推理代理”的创新方法，旨在通过将自然语言推理与外部计算工具相结合，解决复杂的数学问题。

研究人员已经开始将外部工具，如计算器、代码解释器和符号求解器，集成到数学问题求解中。虽然基于程序的方法已经成功地将推理任务转化为程序合成任务，但它们仍然面临着复杂的推理、规划和错误处理问题。将大型语言模型（LLMs）与这些工具相结合显著提高了推理和生成性能。知识蒸馏技术，如LLM生成的轨迹用于微调，也在将知识从教师模型传递给学生模型方面发挥了作用。

尽管LLMs在语言任务中取得了显著进展，包括数学推理，但复杂的数学问题仍然具有挑战性。目前提高LLMs数学能力的策略包括逐步的自然语言推理和程序合成。前者在语义和抽象推理方面表现出色，而后者在严格操作中表现出色，并可以利用诸如方程求解器之类的专业工具。他们的方法在数学推理数据集上优于开源模型，在竞赛级MATHS数据集上取得了高精度。他们的方法还提供了关于工具交互的优势和未解决问题的见解，指导了该领域未来研究的方向。

ToRA模型是通过在数学数据集上使用交互式工具使用轨迹进行训练的，采用模仿学习进行注释，并通过输出空间塑造来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指导性和少样本示例以交织的格式进行组合，用于提示的策划，并评估了ToRA代理的效果，它将理性与程序相结合。这一方法取得了显著的推理性能提升。所面临的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理。

ToRA通过将自然语言推理与外部工具相结合，增强了数学推理的能力。ToRA模型在十个数学推理数据集上表现出色，平均在程序化问题求解中超过开源模型13%-19%的绝对性能改进。他们的方法分析了工具交互的优势和挑战，突显了ToRA的工具集成推理格式的有效性，该格式将理性与程序执行相互交织。

ToRA代理代表了数学问题求解领域的重大突破，通过无缝集成自然语言理解和工具使用，它在各种数学推理任务上实现了最先进的性能，超过了现有的理性和基于程序的方法。对工具交互的优势和挑战进行的全面分析为未来的研究提供了重要见解，有望开发更先进和适应性更强的推理代理。

项目网址:https://github.com/microsoft/ToRA

（举报）

相关推荐

关键词：

荐不要思考过程，推理模型能力能够更强

UC伯克利和艾伦实验室的最新研究表明，推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案，跳过了传统推理模型中的显性思考步骤。实验证明，在低资源(低token数量、少模型参数)或低延迟情况下，NoThinking方法的表现优于传统思考方式，能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异，尤其在资源受限时优势更明显。研究还发现，结合并行计算扩展后，NoThinking能进一步提升性能，在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

推理模型无思考方法解决方案
大规模专家并行推理集群实现性能3倍跃迁，联通元景开启推理新纪元

中国联通持续技术攻坚，依托元景大模型MaaS平台成功搭建“大规模专家并行”推理集群，实现DeepSeekMoE大模型在多节点间的超高效集群推理，单卡吞吐提升3倍，解码时延降低50%。这一成果不仅为人工智能技术的创新发展提供了强大助力，也让各行业以更高效率应用AI技术，加速推动千行百业的数字化转型。这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机，以智能化驱动数字化转型，进推动实体经济高质量发展。

中国联通大模型人工智能
荐生成很强，推理很弱：GPT-4o的视觉短板

研究显示，GPT-4o在图像理解和推理上表现出色，能生成精美图片，但在基础逻辑测试中表现欠佳，暴露出理解、推断及多步骤逻辑处理的不足。例如，被要求画一只猫时，它先画了狗然后改为猫，但仍存在错误判断。这表明当前AI更像“精确指令机器”，需进一步优化以实现更精细的图像理解和复杂任务处理。

AI画图 GPT-4o 图像理解
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
新增自主决策推理模型！理想汽车OTA 7.2开启推送

快科技4月3日消息，我们从理想汽车官方获悉，OTA7.2版本车机系统正式开启推送，预计一周内完成，升级耗时约50分钟。本次更新新增自主决策推理模型，该模型基于车载场景数据及通用推理模型数据打造，可根据问题内容自主决策是否深度思考，面对车控指令等简单问题时，能够保障响应速度。智能座舱方面，新增全能儿童锁功能，支持一键锁定副驾老板键、后排座椅物理按�

理想汽车 OTA更新智能座舱
荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

本文汇总了AI领域最新动态：1)小米开源70亿参数大模型Xiaomi MiMo，在数学推理和代码竞赛中超越OpenAI和阿里模型；2)快手推出AI笔记工具"喵记多"，简化笔记管理；3)Luma AI发布电影级镜头控制API，降低视频生成门槛；4)腾讯重组AI团队，加大语言模型研发投入；5)Anthropic为Claude引入新语音"Glassy"；6)谷歌NotebookLM新增50+语言音频概述功能；7)xAI将发布Grok3.5模型；8)Meta推出独立AI助手应用挑战ChatGPT；9)OpenAI紧急修复GPT-4o"谄媚"问题；10)Mac本地AI助手Simular升级隐私保护；11)CameraBench项目帮助AI理解镜头运动；12)谷歌推出个性化语言学习AI工具。

人工智能 Xiaomi MiMo
荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

OpenAI终于要OpenAI了!一大早，奥特曼郑重官宣，「未来几个月，将开源一款强大的推理模型」。这是自GPT-2以来，OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

OpenAI 开源模型推理模型
荐高考考上985的AI来了！超强数理推理横扫真题，训练秘籍剑指AGI

全球首个工业界多模态推理模型Skywork-R1V升级至2.0版本，全面开源38B参数模型权重。该模型在高考物理、生物等学科题目上展现出强大的图文推理能力，准确率媲美985考生水平。技术突破包括：1）首创视觉奖励模型Skywork-VL Reward，在视觉和文本奖励基准测试中均获SOTA；2）引入混合偏好优化(MPO)机制，平衡推理深度与通用能力；3）采用选择性样本缓冲(SSB)技术解决训练中的优势�

多模态推理 Skywork-R1V 模型升级
荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

现在的国产AI应用，一口气看好几分钟的视频，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结，再按照秒级，对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外，上海交通大学副教授闫维新对这个问题的看法是:总言之，商汤作为国�

国产AI 视频解析智能剪辑
荐DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中，他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2，果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1，发现其性能甚至不如236BMoERFT模型，这表明延长推理任务的思维链并不能显著提升通用RM的性能。

DeepSeek 奖励模型推理方法

热文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

ToRA：融合自然语言推理与外部工具数学推理能力增强

荐不要思考过程，推理模型能力能够更强

大规模专家并行推理集群实现性能3倍跃迁，联通元景开启推理新纪元

荐生成很强，推理很弱：GPT-4o的视觉短板

荐国产六大推理模型激战OpenAI？

新增自主决策推理模型！理想汽车OTA 7.2开启推送

荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

荐OpenAI要Open了，奥特曼开源首个推理模型，ChatGPT一小时暴增百万用户

荐高考考上985的AI来了！超强数理推理横扫真题，训练秘籍剑指AGI

荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

荐DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

热文

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机

ToRA：融合自然语言推理与外部工具 数学推理能力增强

热文

站长商机

ToRA：融合自然语言推理与外部工具数学推理能力增强