首页 > 业界 > 关键词  > 正文

ToRA:融合自然语言推理与外部工具 数学推理能力增强

2023-10-07 17:50 · 稿源:站长之家

文章概要:

- 清华大学与微软合作开发的ToRA是一款革命性的工具集成推理代理,旨在通过将自然语言推理与外部计算工具结合,解决复杂数学问题。

- ToRA模型经过训练,成功在多个数学推理数据集上取得了显著的性能提升,特别是在MATHS竞赛级数据集上,表现出高精度。

- 这一研究为数学问题求解领域带来了重大突破,通过无缝集成自然语言理解和工具使用,ToRA代理在各种数学推理任务上实现了最先进的性能。

站长之家(ChinaZ.com)10月7日 消息:随着大型语言模型的出现,人工智能和数学问题求解领域取得了显著进展。然而,这些模型在面对复杂的数学挑战时仍然存在问题。为了解决这个问题,清华大学与微软的研究人员推出了ToRA,这是一种被称为“工具集成推理代理”的创新方法,旨在通过将自然语言推理与外部计算工具相结合,解决复杂的数学问题。

研究人员已经开始将外部工具,如计算器、代码解释器和符号求解器,集成到数学问题求解中。虽然基于程序的方法已经成功地将推理任务转化为程序合成任务,但它们仍然面临着复杂的推理、规划和错误处理问题。将大型语言模型(LLMs)与这些工具相结合显著提高了推理和生成性能。知识蒸馏技术,如LLM生成的轨迹用于微调,也在将知识从教师模型传递给学生模型方面发挥了作用。

尽管LLMs在语言任务中取得了显著进展,包括数学推理,但复杂的数学问题仍然具有挑战性。目前提高LLMs数学能力的策略包括逐步的自然语言推理和程序合成。前者在语义和抽象推理方面表现出色,而后者在严格操作中表现出色,并可以利用诸如方程求解器之类的专业工具。他们的方法在数学推理数据集上优于开源模型,在竞赛级MATHS数据集上取得了高精度。他们的方法还提供了关于工具交互的优势和未解决问题的见解,指导了该领域未来研究的方向。

ToRA模型是通过在数学数据集上使用交互式工具使用轨迹进行训练的,采用模仿学习进行注释,并通过输出空间塑造来改进推理行为。GPT-4在训练集上生成了多样化的推理模式。指导性和少样本示例以交织的格式进行组合,用于提示的策划,并评估了ToRA代理的效果,它将理性与程序相结合。这一方法取得了显著的推理性能提升。所面临的挑战包括更深入地理解几何空间以及解决中级代数和预微积分问题中的复杂符号推理。

image.png

ToRA通过将自然语言推理与外部工具相结合,增强了数学推理的能力。ToRA模型在十个数学推理数据集上表现出色,平均在程序化问题求解中超过开源模型13%-19%的绝对性能改进。他们的方法分析了工具交互的优势和挑战,突显了ToRA的工具集成推理格式的有效性,该格式将理性与程序执行相互交织。

image.png

ToRA代理代表了数学问题求解领域的重大突破,通过无缝集成自然语言理解和工具使用,它在各种数学推理任务上实现了最先进的性能,超过了现有的理性和基于程序的方法。对工具交互的优势和挑战进行的全面分析为未来的研究提供了重要见解,有望开发更先进和适应性更强的推理代理。

项目网址:https://github.com/microsoft/ToRA

举报

  • 相关推荐
  • 每天刷手机 青少年认知能力显著下降:高频互动或致语言记忆下滑

    加州大学研究团队在《美国医学会杂志》发表研究,追踪6500名9至13岁青少年社交媒体使用行为。研究发现,社交媒体使用时长增加与认知能力下降存在显著关联,尤其影响语言流畅度、工作记忆等核心功能。研究指出,社交媒体高频互动特性会切割注意力,干扰大脑深度信息处理能力。专家建议家长关注使用模式而非单纯限制时间,结合个体认知特点制定干预策略,引导青少年建立健康媒介使用习惯。

  • 百度智能云这项开源,让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

    10月28日,百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测(MTP)技术代码。该技术通过批量生成和集中验证机制,使模型解码吞吐量提升超2倍,突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配,并经过百度内部业务验证,开发者可"开箱即用"获得稳定可靠的推理加速能力。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 科技美育融合创新:vivo携手中国美院发布《科技美育探索报告》,共建乡村美育新生态

    2025年10月23日至26日,第二届乡村儿童美育公益行动论坛在浙江衢州龙游县溪口镇举办,主题为“重塑联结·在造乡村”。vivo作为乡村儿童美育网络执委机构,主办“2025科技美育”平行分论坛,汇聚专家学者及一线实践者,探讨科技与美育融合的创新路径。论坛发布了《科技美育探索报告》,提出科技在美育领域的五种介入模型,系统梳理行业实践。vivo通过“童画未来”项目,以低门槛设备结合在地化课程,为乡村孩子提供创造性美育体验,并展示多方协作成果。与会者强调美育在科技时代的人文价值,呼吁构建开放共生的科技美育新生态。

  • 封关红利撞上两岸融合,海峡创新(300300)平潭唯一国资领风骚

    海峡创新作为平潭唯一国资控股上市公司,自2019年转型后成为两岸融合战略核心载体,控股比例达16%。公司聚焦数字经济(智慧城市、算力中心)、医疗创投(互联网医院、蜂助手股权)等多元生态,2025年三季报净利润大增66.87%。平潭发展以林业为基础,拓展免税业务与光伏领域,三季报净利润增长38.39%。两家企业受益于平潭封关政策红利,股价近期强势上涨,凸显资本市场

  • 云天励飞携全栈AI推理芯片产品亮相湾芯展,引领“推理时代”新赛道

    在2025年湾区半导体产业生态博览会上,云天励飞以“算力积木”为核心理念,全面展示全栈AI推理产品体系。重点推出自研芯片DeepEdge系列及配套模组与加速卡,覆盖从边缘计算到云端推理的不同层级,构建灵活可扩展的算力体系。通过D2D Chiplet等模块化技术,实现8T至256T算力范围,高效支持7B至130B参数的大模型实时推理。目前公司已适配国产鸿蒙系统及主流大模型,参与国家重大专项工程,为航天探测等提供核心算力支撑。未来将持续深化AI芯片研发,携手生态伙伴推动智能计算的普惠化与无处不在。

  • 锐捷极简以太彩光网络4.0再添新翼,“超融合”方案创新而来

    锐捷发布“极简以太彩光4.0-超融合方案”,针对高职院校宿舍高密接入场景,实现“一套架构、超聚/超融双模式融合”设计。方案延续极简理念,核心侧部署超融合模块,弱电间采用无源融合设备,接入侧配备Wi-Fi 7光无线接入点,支持单设备接入11264间宿舍。具备四大创新:融合时分复用技术提升接入密度;统一以太网二层架构简化运维;有线无线一体化OAP提升部署灵活性;核心多场景融合部署适配不同业务需求。该方案不仅破解宿舍网络建设难题,更展现全光网络在医疗、普教等场景的适应能力。

  • 《在千年滕王阁发布科技产品:前行者的科技+文化+情绪伙伴新融合》

    10月18日,外设品牌前行者在南昌滕王阁举办新品发布会,推出多款高端定制键盘、鼠标及虚拟歌姬洛天依联名款X87键盘,以技术创新与跨界合作重新定义行业标准。发布会核心包括品牌战略升级、产品矩阵革新,覆盖电竞、文化、女性设计等多场景,并完成从硬件制造商向“科技+文化+情绪伙伴”生态构建者的转型。通过电竞合作、虚拟偶像联名等跨界实践,彰显国风科技定位,推动输入设备体验变革。

  • 覆盖43国语言与93种口音:时空壶新T1成为国庆环球游的沟通核心

    国庆假期海外游热度攀升,语言差异成为旅行体验的关键挑战。时空壶新T1翻译机以广泛语言覆盖、精准语音识别和场景化设计应对多元沟通需求:支持40种语言及93种口音互译,覆盖全球热门旅游地;针对非标准口音优化识别系统,在嘈杂环境中仍能准确拾音;配备4英寸大屏与快捷操作键,实现0.2秒低延迟翻译。其硬件设计与算法协同提升沟通效率,让点餐、问路等即时交流需求得到高效满足,真正实现“沟通不等待”的旅行体验。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

今日大家都在搜的词: