首页 > 业界 > 关键词  > SymbCoT最新资讯  > 正文

全新推理框架SymbCoT 让大模型实现类人的符号逻辑推理能力

2024-06-07 14:48 · 稿源:站长之家

站长之家(ChinaZ.com)6月7日 消息:新加坡国立大学联合加州大学圣芭芭拉分校与奥克兰大学的研究人员提出了一种名为SymbCoT(Symbolic Chain-of-Thought)的全新推理框架,旨在提升大语言模型(LLMs)的符号逻辑推理能力。这一框架结合了符号化逻辑表达式与思维链,极大提升了推理的质量、鲁棒性与可信度。SymbCoT框架已被ACL2024录用。

image.png

SymbCoT框架包含四个主要部分:翻译、规划、执行和验证。翻译模块将逻辑推理任务中的前提和结论翻译成符号化表达;规划模块根据自然语言与符号化表达生成逻辑推理计划;执行模块遵循逻辑推理规则验证结论的逻辑正确性;验证模块通过对比翻译前后的语义信息,验证翻译和执行过程中是否存在错误。

实验结果表明,SymbCoT在三个复杂逻辑推理数据集上的表现均优于传统思维链(CoT)和使用外部推理工具的方法。具体来说,在GPT3.5-turbo和GPT-4上,SymbCoT的性能分别提升了22.08%、9.31%和7.88%。此外,SymbCoT在复杂场景推理、可信度和鲁棒性方面也优于现有方法。

论文地址:https://arxiv.org/pdf/2405.18357

项目地址:https://github.com/Aiden0526/SymbCoT

SymbCoT的优势在于:

  • 复杂推理能力:SymbCoT在处理更深层次推理问题时表现更佳。

  • 鲁棒性:SymbCoT在执行符号表达式语法时的成功率显著提高,显示出对语法错误的鲁棒性。

  • 可信的逻辑推理:与传统CoT相比,SymbCoT基于严密的逻辑推理和验证,有效消除了过程中的不可信因素。

  • 符号与自然语言混合表达:SymbCoT通过结合符号和自然语言表达来纠正翻译错误并增强逻辑推理的有效性。

  • 不同LLM的影响:SymbCoT与更先进的模型(如GPT-4)之间的协同效应更为显著。

举报

  • 相关推荐
  • 6个AI大模型大战2025年高考数学新一卷:数学题推理能力均显著提升

    ​近日,随着高考的圆满结束,一场别开生面的“数学擂台赛”在各大AI大模型间悄然展开。多家知名科技公司的大模型被邀请参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的实力。此次测试题目包含8道单选题、3道多选题以及3道填空题,满分设定为73分,且测试过程严格遵循高考判分原则,确保结果的公正性与准确性。 测试成绩揭晓�

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 一句话搞定金融复杂工作,容联云大模型知识助理全新升级!

    容联云大模型知识助手全新升级,聚焦"更高效率、更懂金融、更好体验",推出实时语音问答与语音检索两大核心功能。升级亮点包括:1)秒级响应的实时语音问答,支持复杂金融政策解读和理财产品对比分析;2)语义穿透的实时语音检索,可精准定位海量金融文档关键信息,检索效率提升40%;3)深耕金融领域知识,深入理解业务逻辑,提供专业可靠支持;4)支持多音色切换,满足个性化需求。该助手已应用于内部管理、统数运营、营销增长和客户服务四大场景,显著提升业务效率,如客户咨询转化率提升30%、业务办理效率提升60%。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

    ​不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

  • 苹果macOS 26 Tahoe发布:全新玻璃风格 顶栏全透明设计

    据媒体报道,在备受瞩目的WWDC25开发者大会上,苹果正式揭晓了新一代操作系统:macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言,覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格,顶栏实现全透明化,营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案,个性化体验得�

  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。