首页 > 业界 > 关键词  > SymbCoT最新资讯  > 正文

全新推理框架SymbCoT 让大模型实现类人的符号逻辑推理能力

2024-06-07 14:48 · 稿源:站长之家

站长之家(ChinaZ.com)6月7日 消息:新加坡国立大学联合加州大学圣芭芭拉分校与奥克兰大学的研究人员提出了一种名为SymbCoT(Symbolic Chain-of-Thought)的全新推理框架,旨在提升大语言模型(LLMs)的符号逻辑推理能力。这一框架结合了符号化逻辑表达式与思维链,极大提升了推理的质量、鲁棒性与可信度。SymbCoT框架已被ACL2024录用。

image.png

SymbCoT框架包含四个主要部分:翻译、规划、执行和验证。翻译模块将逻辑推理任务中的前提和结论翻译成符号化表达;规划模块根据自然语言与符号化表达生成逻辑推理计划;执行模块遵循逻辑推理规则验证结论的逻辑正确性;验证模块通过对比翻译前后的语义信息,验证翻译和执行过程中是否存在错误。

实验结果表明,SymbCoT在三个复杂逻辑推理数据集上的表现均优于传统思维链(CoT)和使用外部推理工具的方法。具体来说,在GPT3.5-turbo和GPT-4上,SymbCoT的性能分别提升了22.08%、9.31%和7.88%。此外,SymbCoT在复杂场景推理、可信度和鲁棒性方面也优于现有方法。

论文地址:https://arxiv.org/pdf/2405.18357

项目地址:https://github.com/Aiden0526/SymbCoT

SymbCoT的优势在于:

  • 复杂推理能力:SymbCoT在处理更深层次推理问题时表现更佳。

  • 鲁棒性:SymbCoT在执行符号表达式语法时的成功率显著提高,显示出对语法错误的鲁棒性。

  • 可信的逻辑推理:与传统CoT相比,SymbCoT基于严密的逻辑推理和验证,有效消除了过程中的不可信因素。

  • 符号与自然语言混合表达:SymbCoT通过结合符号和自然语言表达来纠正翻译错误并增强逻辑推理的有效性。

  • 不同LLM的影响:SymbCoT与更先进的模型(如GPT-4)之间的协同效应更为显著。

举报

  • 相关推荐
  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 新增自主决策推理模型!理想汽车OTA 7.2开启推送

    快科技4月3日消息,我们从理想汽车官方获悉,OTA7.2版本车机系统正式开启推送,预计一周内完成,升级耗时约50分钟。本次更新新增自主决策推理模型,该模型基于车载场景数据及通用推理模型数据打造,可根据问题内容自主决策是否深度思考,面对车控指令等简单问题时,能够保障响应速度。智能座舱方面,新增全能儿童锁功能,支持一键锁定副驾老板键、后排座椅物理按�

  • DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!

    【新智元导读】DeepSeek新论文来了!在清华研究者共同发布的研究中,他们发现了奖励模型推理时Scaling的全新方法。DeepSeekR2,果然近了。他们用包含300个样本的降采样测试集测试了DeepSeek-R1,发现其性能甚至不如236BMoERFT模型,这表明延长推理任务的思维链并不能显著提升通用RM的性能。

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • 刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理

    现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外,上海交通大学副教授闫维新对这个问题的看法是:总言之,商汤作为国�

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 大规模专家并行推理集群实现性能3倍跃迁,联通元景开启推理新纪元

    中国联通持续技术攻坚,依托元景大模型MaaS平台成功搭建“大规模专家并行”推理集群,实现DeepSeekMoE大模型在多节点间的超高效集群推理,单卡吞吐提升3倍,解码时延降低50%。这一成果不仅为人工智能技术的创新发展提供了强大助力,也让各行业以更高效率应用AI技术,加速推动千行百业的数字化转型。这一推理创新举措必将助力各行业在复杂多变、竞争激烈的市场环境中抢占先机,以智能化驱动数字化转型,进推动实体经济高质量发展。

  • OpenAI要Open了,奥特曼开源首个推理模型ChatGPT一小时暴增百万用户

    OpenAI终于要OpenAI了!一大早,奥特曼郑重官宣,「未来几个月,将开源一款强大的推理模型」。这是自GPT-2以来,OpenAI首个开源的模型。无疑为OpenAI下一步增添了更多的戏剧性。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。