思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

2024-05-15 11:00 · 稿源：站长之家

站长之家（ChinaZ.com）5月15日消息:纽约大学的最新研究对当前流行的思维链（Chain-of-Thought，CoT）技术提出了挑战，该技术原本被认为能够提升大模型的推理能力。研究显示，使用省略号代替具体的推理步骤，模型的推理结果并没有显著差异，这意味着增加计算量而非推理步骤本身可能是提升性能的关键。

论文地址:https://arxiv.org/pdf/2404.15758

研究要点

省略号代替推理步骤:研究发现，将思维链推理中的具体步骤替换为省略号（...），模型的推理结果与完整步骤的推理结果相差无几。
性能提升来源:实验结果表明，所谓的性能提升可能只是因为大模型获得了更多的计算资源（token数量），而非真正的推理步骤。
隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论，这在一定程度上脱离了人类的控制。

实验设计

3SUM问题:设计了一个难度较高的3SUM问题，要求模型在序列中挑选满足条件的3个数，实验中使用了填充token的方法，并与CoT解决方案进行对比。

2SUM-Transform任务:第二个任务是2SUM-Transform，通过将输入数字进行随机偏移，防止模型直接计算，实验结果显示填充token的方法精度接近CoT。

研究结论

填充token的有效性:研究表明，使用重复的省略号作为填充token可以达到与CoT相似的效果。

局限性:尽管填充token方法有效，但它并没有突破Transformer的计算复杂度上限，且需要特定的训练过程。

这项研究为AI领域带来了新的视角，提示我们在设计和使用大型语言模型时，需要更深入地理解其工作原理和性能提升的真正来源。同时，也引发了关于AI安全性和未来发展的进一步思考。

（举报）

相关推荐

关键词：

大模型

荐142页长文揭秘DeepSeek-R1「思维大脑」，开启全新「思维链学」研究

DeepSeek-R1是一款开创性的大型推理模型(LRM)，其研究揭示了AI推理能力的质变。该模型通过多阶段训练流程，将推理过程内嵌于模型本身，实现了从"提示驱动"到"内生推理"的模式转变。研究团队通过142页报告详细分析了R1的思维链，发现其推理过程具有高度结构化特征，包含问题定义、绽放周期、重构周期和最终决策四个阶段。模型展现出类人推理能力，能通过分

DeepSeek-R1 思维链学推理模型
荐不要思考过程，推理模型能力能够更强

UC伯克利和艾伦实验室的最新研究表明，推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案，跳过了传统推理模型中的显性思考步骤。实验证明，在低资源(低token数量、少模型参数)或低延迟情况下，NoThinking方法的表现优于传统思考方式，能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异，尤其在资源受限时优势更明显。研究还发现，结合并行计算扩展后，NoThinking能进一步提升性能，在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

推理模型无思考方法解决方案
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

现在的国产AI应用，一口气看好几分钟的视频，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结，再按照秒级，对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外，上海交通大学副教授闫维新对这个问题的看法是:总言之，商汤作为国�

国产AI 视频解析智能剪辑
阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

3月28日，由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场，围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题，发表了精彩演讲。”今年，在这个快速变化的时代，我要补充一句:“AI工业视觉的格局正在加速变革，不会用大模型的将会被善用大模型的人淘汰。

机器视觉 AI检测工业应用
AI 大模型的困境：数据才是真正的“燃料”

一旦掉入AI坟场，幻觉将永远存在，噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目，但小心进入AI大模型的坟场，在光鲜亮丽的背后，AI大模型也面临着诸多困境，其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据，AI大模型才能发挥出其真正的潜力，为企业带来更大的价值。

AI 大模型数据质量
合合信息发布“大模型加速器 2.0”，助力大模型跨越“幻觉”障碍

近日，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器 2.0”版本正式上线，凭借其多维度升级，为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键，合合信息“大模型加速器 2.0”基于领先的智能文档处理技术，从数据源头入手，对复杂文档的版式、布局和元素进行精准解析及结构化处理，

大模型加速器合合信息智能文档处理
联发科天玑9400+拿下最强AI手机芯片：端侧推理准确率反超云端大模型

今日，联发科举办天玑开发者大会2025，正式发布新一代旗舰芯片天玑9400。天玑9400定位旗舰5G智能体AI芯片，综合AI跑分是天玑9400的1.25倍，支持最高8B规模的DeepSeek-R1端测部署，推理准确率反超云端大模型。天玑9400采用台积电第二代3nm工艺，CPU架构延续创新全大核设计，包含1颗主频3.7GHz的Cortex-X925超大核、3颗3.3GHz的Cortex-X4大核与4颗2.4GHz的Cortex-A720大核。

天玑9400 联发科 5G智能芯片
奔驰新款CLA接入豆包大模型

4月22日，奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构，接入火山引擎大模型，支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈，交互效率提升50%，唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型，结合生成式AI和大数据技术，为中国用户打造更智能的用车体验。

梅赛德斯-奔驰全新纯电长轴距 CLA
迅雷一键即可完成大模型下载

近日，迅雷为提升用户使用体验，让用户能够更快更好地批量下载大模型所有文件，已针对大模型下载场景进行了优化，并上线了新版本插件，下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是，在使用迅雷该插件功能创建任务时，将同时创建相对应的文件夹，下载完成后，所有文件都将在一个文件夹中，相比传统浏览器——需要用户逐个手动点击下载图标并�

迅雷大模型下载下载优化

热文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

荐142页长文揭秘DeepSeek-R1「思维大脑」，开启全新「思维链学」研究

荐不要思考过程，推理模型能力能够更强

荐国产六大推理模型激战OpenAI？

荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

阿丘科技李嘉悦：大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

AI 大模型的困境：数据才是真正的“燃料”

合合信息发布“大模型加速器 2.0”，助力大模型跨越“幻觉”障碍

联发科天玑9400+拿下最强AI手机芯片：端侧推理准确率反超云端大模型

奔驰新款CLA接入豆包大模型

迅雷一键即可完成大模型下载

热文

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机