苹果炮轰AI推理模型：全是假思考！所谓思考只是一种假象

2025-06-08 21:20 · 稿源：快科技

快科技6月8日消息，苹果近日发表了一篇研究论文，称推理模型全都没真正思考，无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的模式匹配”，所谓思考只是一种假象。

有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。

苹果团队认为，现有评估主要集中在既定的数学和编码基准上，看模型最终答案是否正确，但可能存在模型训练时见过类似题目。

并且，这些评估大都缺乏对思考过程质量”的分析，比如中间步骤是否逻辑一致、是否绕弯路等。

为了更客观测试推理模型的推理能力，他们设计了4类谜题环境：汉诺塔、跳棋交换、过河问题、积木世界，并且这4类谜题的难度可以精确控制.

随着问题变难，推理模型初始会延长思考，但随后思考深度反而下降，尽管仍有充足token预算，它们却在最需要深入思考时选择了放弃！

并且，当问题复杂度继续增加并超过某个临界点时，无论是推理模型还是标准模型都会经历完全的性能崩溃，准确率直线下降至零。

对此，有网友讽刺到：苹果拥有最多的资金，2年了也没有拿出像样的成果，现在自己落后了，却来否定别人的成果。”

据悉，Apple Intelligence在2024年WWDC正式亮相，在这一年里，苹果宣传中的许多功能都经历延期、不够完善甚至被下架。

不过也有人指出，这篇论文没有看上去那么消极，而是呼吁设立更好的推理机制和评估办法。

（举报）

相关推荐

关键词：

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
孩子的数学逻辑比运算结果重要专家：应鼓励孩子表达思考路径

近日，教育领域专家针对儿童数学能力培养问题发出呼吁，强调在基础教育阶段应更加关注孩子的数学逻辑思维发展，而非单纯追求运算结果的正确性。这一观点引发了社会对数学教育本质的深入讨论。传统数学教学中，运算结果的准确性常被视为衡量学习成效的核心标准。然而，多位教育研究者指出，数学思维的培养是一个系统过程，其中逻辑推理能力才是支撑长期数学学
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Momenta作为国内智能驾驶领域的领先者，凭借其创新的飞轮大模型技术，实现了端到端的自动驾驶解决方案。该技术将感知与规划整合，有效解决长尾问题，提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习，具备持续进化能力，适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作，方案已成功应用于广汽丰田、东风日产等车型，并在欧洲、澳大利亚等市场落地，展现出强大的全球适应性和技术优势。选择Momenta，即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

智能驾驶系统技术实力 Momenta
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

9月24日，2025云栖大会在杭州开幕，主题为“云智一体·碳硅共生”，汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型，其中Qwen3-Omni作为行业首个端到端全模态AI大模型，在36项基准测试中实现22项SOTA，性能全面突破。大会聚焦多模态技术，斑马智行宣布率先接入Qwen3-Omni，并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni，具备主动智能、断网可用、隐私无忧三大特点，推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产，标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日，预计更多创新技术将亮相。

云栖大会通义大模型 AI技术
《鹅鸭杀》手游“鸭轴”测试定档9月28日，全民推理盛宴即将开启！

《鹅鸭杀》手游将于9月28日开启不限号删档测试，无需激活码。本次测试新增“轮抽”和“超级金水铃”模式，推出全新地图“丛林神殿”，并强化社交玩法，包括专属个人房间和送礼系统。游戏还优化了画面和服务器稳定性，支持安卓/iOS双端下载。官方邀请主播参与互动，并筹备综艺节目，丰富娱乐内容。测试期间充值将在公测时返利。

鹅鸭杀手游鸭轴测试不限号删档测试
共建行业认知共探增长路径—装库科技亮相空白研究院“同心计划·装修代卖”专题峰会

9月22-23日，空白研究院在北京举办“装修代卖”专题课程，聚焦存量房市场趋势、模式创新及中介服务转型。课程邀请行业专家分享战略洞察与实操方法，探讨如何通过产品组合、组织优化和利润升级打造新增长点。强调“好房子”标准应涵盖户型、风格、科技与可持续性，推动中介从撮合交易转向综合服务。实地考察展示了售前美化对成交效率的提升，助力行业迈向标准化与体系化发展。

装修代卖存量房市场中介服务
没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成

今日大家都在搜的词：

热文

3 天
7天

苹果炮轰AI推理模型：全是假思考！所谓思考只是一种假象

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

孩子的数学逻辑比运算结果重要专家：应鼓励孩子表达思考路径

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

《鹅鸭杀》手游“鸭轴”测试定档9月28日，全民推理盛宴即将开启！

共建行业认知共探增长路径—装库科技亮相空白研究院“同心计划·装修代卖”专题峰会

没想到，音频大模型开源最彻底的，居然是小红书

今日大家都在搜的词：

热文

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

华为WATCH GT 6/Pro系列手表发布售价1488元起

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

小米SU7 Ultra原型车1:43合金车模发布：售价149元

499元！小米手环10耀影金特别版发布

雷军称最关键的改变发生在2020年都是被巨大挑战逼出来的

雷军：小米17 Pro Max屏幕采用超级像素技术功耗降低26%

雷军谈人能不能改变命运：不断尝试努力就有机会

小米17全系搭载全新M10屏幕发光技术

雷军自曝压力巨大：造车造芯把家底全押上了

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

华为WATCH GT 6/Pro系列手表发布售价1488元起

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

ColorOS 16将于10月15日发布 Find X9系列全球首发搭载

iPhone17遭首批用户吐槽客服回应：建议新机带壳

小米平板8系列搭载11.2英寸3.2K旗舰屏

站长商机