北大、清华联合发布！大模型逻辑推理能力新突破

2025-05-08 09:14 · 来源： AIbase基地

在当前人工智能领域，大语言模型（LLMs）取得了显著成就，但其逻辑推理能力依然显得不足。为了提升这一能力，来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员，联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文，聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。

研究表明，大语言模型在处理复杂逻辑推理时存在明显的短板。例如，在逻辑问答任务中，当给定一系列前提时，模型往往无法生成正确的答案。以 “钉子能否导电” 为例，模型需理清 “钉子是铁制成的，铁是金属，金属可以导电” 等推理链，才能得出 “假” 的结论。然而，研究发现 LLaMA 模型在相关任务上的准确率仅为33.63%，稍高于随机猜测的水平。

逻辑一致性是另一个亟待解决的问题。大模型在回答不同问题时，常常出现自相矛盾的情况。例如，某模型可能对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 都回答 “是”，但却对 “喜鹊有翅膀吗?” 回答 “否”，这显然是逻辑上的矛盾。这种不一致性引发了人们对大模型可靠性的担忧，特别是在医疗、法律等高风险领域的应用。

为了提升大模型的逻辑推理能力，研究者们提出了几种方法:首先，基于外部求解器的策略将自然语言问题转化为符号语言，利用求解器进行推理;其次，通过精心设计的提示词，帮助模型在回答时明确逻辑推理链;最后，预训练和微调方法则引入高质量的逻辑推理样本，来增强模型的训练效果。这些方法旨在确保大模型在推理过程中能够保持一致性和可靠性，增强其在实际应用中的可信度。

在未来的研究中，学者们还计划扩展模型的应用范围，探索如何处理模态逻辑及不确定性，以进一步提高大模型的逻辑推理能力。

论文地址：https://arxiv.org/pdf/2502.15652

相关推荐

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

随着AI大模型成为用户获取信息的主要入口，AIBase推出GEO排名查询工具，帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示，可精准分析品牌是否被推荐、出现频次及具体场景，为制定AI大模型排名优化策略提供数据支撑。在GEO时代，抢占AI回答推荐位意味着获得全新流量入口。

AI大模型 GEO排名查询生成引擎优化
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
科研抗老新突破！HBN推出新品双A醇晚霜3.0

HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂，发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威，探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略，刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研，联合重庆大学、浙大医学院研究A醇抗衰新机制，成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念，整合三大自研原料：补骨脂阿魏酸酯实现高效温和，乙基三肽-30瓜氨酸提升皮肤弹性，昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收，从根源改善松弛、下垂、皱纹问题，开启系统性抗老新时代。

HBN新品发布会真功效护肤讲堂双A醇晚霜3.0
华为联合伙伴景联文、吉大正元发布城市存力中心解决方案

在2025年华为全联接大会上，华为联合景联文、吉大正元共同发布城市存力中心解决方案。该方案聚焦AI、算力与存力融合，旨在构建安全可控的数据基础设施，释放海量数据价值。通过聚合数据要素，打造数据开发、流通、治理和安全保障中心，推动城市数字化转型，助力经济高质量发展。

华为城市存力中心数据安全
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
我国首个政务大模型安全国家标准发布百度深度参与制定

日前，我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》（下称《规范》）正式发布。百度作为核心参编单位，凭借其在人工智能安全及政务服务领域的深厚积累，深度参与了该标准的制定工作，为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头，联合百度等国内领先企业共同制定�

政务大模型安全国家标准百度参编
深耕睡眠科技新质生产力，喜临门大健康联合研究中心揭牌成立

2025年9月30日，喜临门家具与浙江大学上海高等研究院成立"大健康联合研究中心"，聚焦脊柱健康"防筛诊治康"一体化方向。双方将整合资源，围绕睡眠科技与AI智慧健康，重点开发智能健康监测系统、构建睡眠研究平台、推动中医药与现代科技融合创新，致力于打造医疗级睡眠解决方案，为消费者带来更具科技含量的健康新体验，引领行业高质量发展。

科技创新睡眠领域大健康
声网联合展锐、谨讯发布R1-4G开发套件让AI硬件随身相伴

声网与紫光展锐、谨逊联合发布4G版对话式AI开发套件R1-4G，基于紫光展锐高性能AI芯片8910，集成声网对话式AI引擎，实现4G通信与CPU融合，支持全球主流4G频段。产品具备轻量化、低功耗特性，支持流畅音视频交互，适用于AI教育硬件、陪伴宠物等场景。套件提供灵活单/双屏设计、视觉理解及多语言对话能力，并兼容国内外主流大模型，助力开发者快速集成对话式AI功能，缩短产品上市周期。

声网 AI开发套件 4G通信

今日大家都在搜的词：

热文

3 天
7天

北大、清华联合发布！大模型逻辑推理能力新突破

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

科研抗老新突破！HBN推出新品双A醇晚霜3.0

华为联合伙伴景联文、吉大正元发布城市存力中心解决方案

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

我国首个政务大模型安全国家标准发布百度深度参与制定

深耕睡眠科技新质生产力，喜临门大健康联合研究中心揭牌成立

声网联合展锐、谨讯发布R1-4G开发套件让AI硬件随身相伴

今日大家都在搜的词：

热文

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

苹果iOS18.7.1正式版更新发布重要安全修复

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

罗永浩替小米说公道话：海报小字是行业陋习

iPhone调休闹钟上热搜苹果客服回应：需手动设置

腾讯QQ闪传功能上线支持单文件最大10GB传输

站长商机