研究人员揭示大模型并非真正推理，只是在 “找关系”

2025-05-30 17:50 · 来源： AIbase基地

随着人工智能（AI）技术的飞速发展，越来越多的研究人员开始对大型语言模型(如 ChatGPT)进行深入探讨。近日，亚利桑那州立大学的研究小组在预印本平台 arXiv 上发表了一项引人关注的论文，指出我们对这些 AI 模型的理解可能存在误区。他们认为，这些模型实际上并不会进行真正的思考或推理，而仅仅是在寻找相关性。

论文中，研究者们特别提到，尽管这些 AI 模型在给出答案之前，往往会生成一系列看似合理的中间过程，但这并不意味着它们在进行推理。研究小组强调，这种将 AI 模型行为拟人化的说法，可能会导致公众对其工作机制产生误解。他们指出，大模型的 “思考” 实际上是通过计算寻找数据之间的相关性，而非理解因果关系。

大模型元宇宙 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

为了验证他们的观点，研究人员还提到了一些推理模型，如 DeepSeek R1，虽然在某些任务中表现优异，但这并不证明它们具备人类思考能力。研究表明，在 AI 的输出中，并没有真正的推理过程存在。因此，如果用户将 AI 模型生成的中间输入视作推理过程，可能会对其问题解决能力产生误导性信心。

这项研究提醒我们，在日益依赖 AI 的时代，必须更加谨慎地看待这些技术的能力。随着对大模型能力的认知深化，未来的人工智能研究将可能朝着更具解释性的方向发展，帮助用户更清晰地理解 AI 的实际工作原理。

相关推荐

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

SuperCLUE+最新评测显示，豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首，超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异，尤其在中文理解任务上国内领先。基于MoE架构设计，其综合性能超过多款超大规模预训练模型，推理成本显著降低。截至2025年3月，豆包大模型日均调用量达12.7万亿tokens，是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉，6月11日将发布豆包大模型最新升级进展。

豆包大模型中文大模型忠实性测评
荐一场文心大模型的「AI马拉松」

对于百度而言，既要保持长期主义的战略定力，也要在技术路径上灵活应变，这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年，模型能力的重要性依然无需多言。从预训练的角度来看，虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说，预训练数据即将用尽，但海量的图像、视频等多模态数据资源依然有待挖掘。从后训练的角度来看，强化学习新范式正�

AI发展模型能力预训练技术
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
大模型时代：内容产业智变新浪潮

腾讯研究院院长司晓在第15届中国（深圳）国际文化产业博览交易会上发表演讲，指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构，显著提升内容生产效率和质量，如腾讯混元模型支持实时图像生成与调整。AI技术加速影视、音乐等内容创作，如上海民族乐团与腾讯音乐合作的AI音乐会《零·壹 | 中国色》。同时，大模型在理解与交互能力上取得突破，如GPT-4o能准确识别物体细节。腾讯通过"探元计划"推动科技与文化融合，如"云游敦煌"等项目。未来，AI将实现"智力即服务"，大幅提升创作效率和质量，推动文化内容产业进入"千人千面"新时代。

大模型文化内容生产人工智能发展
李想：理想VLA司机大模型就是从动物进化到人类

预训练相当于人类学习物理世界和交通领域的常识，通过大量高清2D和3D Vision（视觉）数据、交通相关的Language（语言）语料，以及与物理世界相关的VL（Vision-Language，视觉和语言）联合数据，训练出云端的VL基座模型，并通过蒸馏转化为在车端高效运行的端侧模型。

理想汽车 AI工具 VLA司机大模型
DeepSeek更新R1推理AI模型，已发布Hugging Face

更新后的 R1 拥有 6850 亿个参数，体量庞大。由于模型规模极大，普通消费者级别的硬件很可能无法直接运行。

DeepSeek DeepSeekR1大模型 DeepSeekR1
东风汽车奕派007接入豆包大模型

东风汽车旗下电动品牌奕派推出2025款奕派007，全面接入豆包大模型，实现三大智能化创新：1）毫秒级响应的全场景语音交互，支持10个高频指令同时处理；2）"情绪管家"模式可主动提供娱乐内容调节驾乘情绪；3）结合AIGC技术实现旅途画面一键艺术化创作分享。该车型通过智能决策能力和个性化服务重构人车关系，定位为Z世代"AI搭子"。未来将与火山引擎合作探索更多智能出行场景，构建差异化竞争力。

东风奕派电动汽车智能交互
荐大模型公司纷纷卷向社区，kimi们能否扭转乾坤？

内容社区能不能打破AI困境?大模型赛道卷上天，部分公司开始换新玩法了。据蓝鲸财经报道，月之暗面Kimi正灰度测试一个内容社区产品。从该媒体爆料来看，该社区内大部分内容由AI抓取新闻热点生成，重点关注科技、财经等垂类新闻。有趣的是，据财联社报道，另一个大模型巨头OpenAI也表示将做社交软件，对标的是X，但对于这个社区的定位还没清晰，不知道将来是单独开发

内容社区 AI困境大模型
音箱智商史诗升级 AI大模型渗透率已超20%

目前上市的新品已经全面搭载AI大模型技术，例如小度大金刚Pro和小米智能音箱等搭载大模型技术的新品在4月上市，兼顾了声学、美学和语音技术的多方面升级。

智能音箱 AI大模型智能家居
荐或超过人类平均水平！AI 大模型将如何改造智能客服？

本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出，传统智能客服存在"答非所问"问题，主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解，精准把握客户意图，实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级：1）精准理解应答；2）更自然的沟通方式；3）主动挖掘需求和销售转化；4）自动构建决策模型；5）实现营销服务一体化应用。高志成认为，随着AI技术发展，智能客服水平将超越人工客服平均水平，不仅能处理售前咨询，还能部分解决售后问题。企业需构建完善的知识库体系，将商品信息、活动信息等单独做成知识库，通过数据标注构建更立体的用户画像。最终，智能客服将向"售前+售后"全能型发展，承担更大责任。

智能客服 AI大模型客服升级

今日大家都在搜的词：

热文

3 天
7天

研究人员揭示大模型并非真正推理，只是在 “找关系”

中文大模型忠实性幻觉评测：豆包大模型幻觉率仅4%，位居全球收之首

荐一场文心大模型的「AI马拉松」

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

大模型时代：内容产业智变新浪潮

李想：理想VLA司机大模型就是从动物进化到人类

DeepSeek更新R1推理AI模型，已发布Hugging Face

东风汽车奕派007接入豆包大模型

荐大模型公司纷纷卷向社区，kimi们能否扭转乾坤？

音箱智商史诗升级 AI大模型渗透率已超20%

荐或超过人类平均水平！AI 大模型将如何改造智能客服？

今日大家都在搜的词：

热文

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

Remixpoint加码比特币押注，追投700万美元，股票上涨5.26%

虚拟币交易变抢劫？投资者直接以“绑架、折磨”进行勒索

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

站长商机