首页 > 业界 > 关键词  > 正文

ToRA:融合自然语言推理与外部工具 数学推理能力增强

2023-10-07 17:50 · 稿源:站长之家

文章概要:

- 清华大学与微软合作开发的ToRA是一款革命性的工具集成推理代理,旨在通过将自然语言推理与外部计算工具结合,解决复杂数学问题。

- ToRA模型经过训练,成功在多个数学推理数据集上取得了显著的性能提升,特别是在MATHS竞赛级数据集上,表现出高精度。

- 这一研究为数学问题求解领域带来了重大突破,通过无缝集成自然语言理解和工具使用,ToRA代理在各种数学推理任务上实现了最先进的性能。

站长之家(ChinaZ.com)10月7日 消息:随着大型语言模型的出现,人工智能和数学问题求解领域取得了显著进展。然而,这些模型在面对复杂的数学挑战时仍然存在问题。为了解决这个问题,清华大学与微软的研究人员推出了ToRA,这是一种被称为“工具集成推理代理”的创新方法,旨在通过将自然语言推理与外部计算工具相结合,解决复杂的数学问题。

研究人员已经开始将外部工具,如计算器、代码解释器和符号求解器,集成到数学问题求解中。虽然基于程序的方法已经成功地将推理任务转化为程序合成任务,但它们仍然面临着复杂的推理、规划和错误处理问题。将大型语言模型(LLMs)与这些工具相结合显著提高了推理和生成性能。知识蒸馏技术,如LLM生成的轨迹用于微调,也在将知识从教师模型传递给学生模型方面发挥了作用。

尽管LLMs在语言任务中取得了显著进展,包括数学推理,但复杂的数学问题仍然具有挑战性。目前提高LLMs数学能力的策略包括逐步的自然语言推理和程序合成。前者在语义和抽象推理方面表现出色,而后者在严格操作中表现出色,并可以利用诸如方程求解器之类的专业工具。他们的方法在数学推理数据集上优于开源模型,在竞赛级MATHS数据集上取得了高精度。他们的方法还提供了关于工具交互的优势和未解决问题的见解,指导了该领域未来研究的方向。

ToRA模型是通过在数学数据集上使用交互式工具使用轨迹进行训练的,采用模仿学习进行注释,并通过输出空间塑造来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指导性和少样本示例以交织的格式进行组合,用于提示的策划,并评估了ToRA代理的效果,它将理性与程序相结合。这一方法取得了显著的推理性能提升。所面临的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理。

image.png

ToRA通过将自然语言推理与外部工具相结合,增强了数学推理的能力。ToRA模型在十个数学推理数据集上表现出色,平均在程序化问题求解中超过开源模型13%-19%的绝对性能改进。他们的方法分析了工具交互的优势和挑战,突显了ToRA的工具集成推理格式的有效性,该格式将理性与程序执行相互交织。

image.png

ToRA代理代表了数学问题求解领域的重大突破,通过无缝集成自然语言理解和工具使用,它在各种数学推理任务上实现了最先进的性能,超过了现有的理性和基于程序的方法。对工具交互的优势和挑战进行的全面分析为未来的研究提供了重要见解,有望开发更先进和适应性更强的推理代理。

项目网址:https://github.com/microsoft/ToRA

举报

  • 相关推荐
  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

    ​不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 高考数学霸榜热搜!男生第一个走出考场:数学题目太难了 不会

    今天下午,有关高考数学的微博话题霸占了热搜榜,引发热议。 在海南某考点,一名男生第一个走出考场,还简单接受了媒体采访,称数学太难了,不会”。对于高考数学题目,有的学生答得非常不错,有的学生则表示太难。 据了解,2025年高考数学命题遵循高校人才选拔要求和高中数学课程标准,依据高考评价体系,持续推进考试内容改革。更新设计理念,深化基础性考查

  • 思看科技联合浙江大学机械工程学院产教融合研讨会顺利举行

    2025年6月6日,思看科技与浙江大学机械工程学院联合举办第二届"智能制造创新人才培养与三维视觉技术产教融合研讨会"。会议汇聚学界和产业界专家,围绕智能制造人才培养策略与三维视觉数字化技术应用展开深入探讨。浙大机械工程学院党委书记刘振宇强调智能测量是智能制造基础,思看科技董事长江峰回顾校企合作成果。会议通过"上午实践展示+下午理论探讨"的创新模式,推动产教深度融合。与会专家就三维视觉技术在工业设计、质量检测等领域的创新应用进行交流,为智能制造人才培养提供新思路。活动搭建了"产学研用"高端对话平台,为产业变革注入创新动能。

  • 《卓世科技MCP 技术融合实践白皮书》发布

    本文介绍了AI应用开发中MCP(模型上下文协议)的重要作用。MCP作为标准化AI工具交互协议,允许AI代理根据任务上下文自主发现、选择和编排工具,突破传统预定义工具映射的局限。文章重点展示了卓世科技在医疗健康领域的创新实践:通过MCP整合多源异构医疗知识图谱,构建全栈式健康监测网络,实现诊疗规范、药品信息等动态同步;同时开发智能周报系统,实现多模态内容自动生成与精准推送。MCP架构采用客户端-服务器模式,支持本地高效通信与云端实时交互,为AI应用提供灵活性和互操作性。未来,MCP将与A2A协议互补协作,推动AI从单点工具向系统化智能协同演进。

  • 纳米 AI 融合仓颉登陆鸿蒙,为国产AI搜索筑牢自主根基

    近日,纳米 AI 搜索与华为达成重磅合作,纳米AI的移动App正式入驻鸿蒙 HarmonyOS5 生态,实现移动端与桌面端设备的全场景流畅运行。

  • 自然场景植入构建品牌心智,快手短剧联合美团打开品牌营销新蓝海

    美团通过与快手合作定制微短剧,实现品牌营销新突破。快手短剧凭借成熟生态和3亿用户基础,助力美团打造"团购+短剧"营销模式,覆盖家庭、职场、爱情等多场景。爆款短剧如《暗恋藏不住》《追光者》等播放量超5亿,自然植入团购消费场景,强化用户心智。2024年数据显示,快手短剧日活用户观看时长达21分钟,通过剧情自然展现团购优惠,实现流量高效转化。这种内容营销模式突破短期转化目标,助力品牌长效增长,成为连接用户的新营销标配。