首页 > 传媒 > 关键词  > Scale最新资讯  > 正文

MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

2026-02-03 17:05 · 稿源: 站长之家用户

在 AI 的巨头战场上,OpenAI 执着于 Scale Law(规模法则),DeepMind 专注于能力分级,而陈天桥的 MiroMind 选择了一条截然不同的“第三条道路”。

这篇文章不仅是理论阐述,更是 MiroMind 的路演书。陈天桥明确反对了目前主流的“行为主义”(图灵测试)和“功能主义”(替代工作)路线 ,提出了“通用推理引擎”的新定位。

MiroMind 的战术非常清晰:

放弃“全知全能”的幻觉: 承认模型会出错,因此引入“自我纠错”机制,依靠外部反馈闭环来生存 。

小参数,强推理: MiroMind 的 BrowseComp 案例显示,235B 参数的模型通过 Agent 交互可以战胜更大模型 。这证明了“推理能力”可以通过架构创新而非单纯堆算力来实现。

重新定义算力用途: 不再是一次性生成长文,而是将算力用于“时间序列上的反复求证” 。

陈天桥将这一过程比作“逻辑长征”。MiroMind 的目标不是做一个聊天机器人,而是一个“可审计、可验证的通用问题求解器” 。这不仅是技术路线的选择,更是市场定位的差异化——当所有大模型都在争夺 C 端用户的注意力时,MiroMind 似乎正瞄准科研、工业、金融等B端高容错门槛的“深水区”。

如果说 OpenAI 是想造一个无所不知的“神”,陈天桥则是想造一把精准剔除谬误的“手术刀”。在 AGI 的长跑中,这把手术刀或许比神谕更实用。

以下为陈天桥博文全文:

言语道断,因果自现——我心中的AGI是什么

过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越“像人”;HLE 之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:“所谓 AGI、大一统的通用智能,大概也就差不多了。”但在我看来,这是一场美丽的误会。

为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是“文科大模型”。它以语言生成与文本一致性为中心,把知识组织成“像真的叙述”和“像对的答案”。它的价值在于“模拟”:它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但是即便它能解奥数、HLE 也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。

但我一直坚信,人类真正需要 AI 去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是“写出来”的,而是被外部世界“确认出来”的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是“说得对不对劲”,而是“这个假设能不能被现实否决或确认”;它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为“理科大模型”。它的价值在于“发现”。

需要澄清一点:我说的“文科/理科”,不是两种模型的物种差异,而是两种默认动作的差异:文科大模型倾向给出一个“看起来不错的最终答案”,理科大模型倾向先给出一组可证伪的假设,并同时给出把这些假设变成证据的路径;文科模型在不确定处更容易把答案“凑圆”,理科模型在不确定处更像本能地停一下,然后去查证、去拆解,把问题拆成可验证的小问题;理科模型把因果当作第一公民,回答“条件改变后会发生什么”;理科模型还必须有可累积的长期记忆,把每一次验证得到的结论以可追溯的方式写回去。总之,理科模型更像一个握着手术刀的外科医生:在无数方案里,识别哪一刀真正触及因果红线;它知道,一旦切下去,现实会给出最诚实、也最残酷的反馈,形成真正的因果闭环——这种对“真实代价”的敬畏,正是两种范式之间最本质的鸿沟。

所以,真正决定 AGI 应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的“灵魂伴侣”,还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的“因果明镜”?我认为是后者。所以,实现 AGI 不是为了再造一个更会聊天的会生成的系统,而是为了打造一种“会发现”的智能。

让我们带着这样的价值观去审视一下现有的 AGI 定义的主要流派。一种是行为主义范式,源于图灵测试,认为 AGI 的标准是“机器表现出的行为与人类无法区分”。这是目前大众最直观的评判标准。但如果一个 AI 只是在模仿人类说话,它永远无法告诉我们那些人类还没发现的真理。第二种是功能主义范式。以 OpenAI 为代表,定义 AGI 为“在大多数具有经济价值的工作中超越人类的自适应系统”,侧重于对人类劳动力的替代能力。但人类文明的每一次飞跃,都不是靠把旧工作做得更快,而是靠发现前所未有的新规律。第三种是能力分级范式。以 DeepMind 为代表,将 AGI 分为从 "Emerging" 到 "Superhuman" 的五个层级,核心指标是在广泛且未见过的任务中的“泛化能力”与“表现分值”。可现实世界不是考场,没有标准答案,真正的智慧是要在没有考卷的地方,自己找到那条正确的路。当然还有一些其他的范式都或多或少存在上述问题。

那么我心目中 AGI 目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近 99% 级别的整体正确率,并通过形式化和工具链把每一步推理“钉死”为可检查的证据,最终对任意复杂问题给出闭环解决方案。

为什么我们死磕“300 步”?我们必须先定义推理的最小单位——标准原子步(SIU, Standard Inference Unit),作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到 98%,哪怕每一步都能做到这个最高水平,300 步后的端对端成功率也只有 0.23%,已经接近归零。这意味着在 300 步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠“看起来合理”的续写去蒙混过关。所以我认为 300 步是独立解决复杂现实问题的“跨度起点”。

为什么 99% 必须是硬杠?因为发现式系统不是用来“聊天”,而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是“答错题”,而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。99% 不是面子指标,而是“可质押、可签字”的门槛。

所以,我心目中的 AGI,是能在 300 步的逻辑长征中,靠自我纠错熬过“概率死亡”,最终抵达地图之外的起点。从这里开始,AGI 就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。

当然,我并不认为这是一条“喊口号就能到达”的路线。把目标钉在“300 步仍保持 99% 可靠性”,本质上是在主动面对三个工程硬点:长链误差累积、开放世界验证缺口、以及组合爆炸下的预算约束。正因如此,我们在工程上必须进行解剖,将推理过程分为两层:逻辑生成层与检验层。生成层负责“想”:将大问题递归地拆解,直到细化为原子级操作,我们还要做检验层负责“查”:对每一个原子步通过工具、仿真或外部数据逐一验证。一旦某一步不过关,系统就在局部进行回退和重生成,而不是推翻整条推理链。

MiroMind 已经在这条路走出了第一步。以 BrowseComp 为例,MiroMind 仅用 235B 参数模型就给出了 SOTA 的成绩,它的意义不在于“分数本身”,而在于证明了一个工程事实:我们正在把推理从“单次生成”推进到“时间序列上的反复求证”。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的 agent/环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是“通用求解器”的第一块地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。这个过程沉默、缓慢、严谨、甚至有点残酷,它抛弃了人类语言的精妙模仿,却在枯燥、严苛、却能被现实反复复现的因果闭环中,缓慢破土而出,即使有耐心资本的加持和理想主义的坚守,这也会是一个非常痛苦的过程。

佛经里有个词,叫“大圆镜智”。说的是一个人的心若能修到像一面大圆镜,就能如实照见万物因果,不被尘埃遮蔽,不被偏见扭曲,这是智慧的最高境界。我对这个智慧一直很向往,甚至创办的科普视频号也取名叫做大圆镜。而我心中的 AGI 就是一个无限接近“大圆镜智”的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的 AI 时代,我们需要一面只对“因果和真相”负责的镜子。


推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 小米开测首个手机版龙虾Xiaomi miclaw!王腾:超级期待

    小米今天宣布,移动端Agent产品Xiaomi miclaw开启小规模测试,支持小米17系列的五款机型率先体验。 Xiaomi miclaw是基于小米MiMo大模型构建的AI交互测试产品,是国内首个手机端类OpenClaw(昵称龙虾”)Agent应用。 原REDMI总经理王腾转发该消息称:超级期待!前几天刚云端养了只龙虾,大家有养吗?有啥使用经验教教我”。

  • 小米发布国内第一个手机版龙虾 雷军回应Miclaw封测:基于MiMo构建

    今日,小米公司对外宣布,其移动端AI交互测试产品Agent Xiaomi miclaw已正式启动小范围封闭测试。此次测试并未公开招募参与者,而是通过邀请制进行,首批测试将支持小米17系列手机用户。 Xiaomi miclaw是基于小米自主研发的MiMo大模型构建而成,相较于传统AI助手,它具备系统底层能力、个人上下文理解、生态互联以及自进化四个层次的能力。小米方面表示,这款产品旨在让手机

  • 卓世科技重磅发布 NextClaw:打通IT与OT的具身执行引擎

    卓世科技发布全栈具身智能体执行引擎NextClaw,旨在解决企业AI落地痛点。它突破传统AI方案,深度融合OT物理层,连接老旧系统与智能机器人,实现从IT云端到OT物理世界的打通。NextClaw具备四大核心优势:下沉至OT物理层驱动实体设备;极致边缘计算,支持离线毫秒级响应;行业定向微调,拒绝通用幻觉;提供开箱即用技能包,拒绝空壳PaaS。该方案以软硬一体形式,帮助企业构建竞争壁垒,拥抱AI技术红利。

  • 花生壳MCP x OpenClaw:让AI Agent拥有“内网超能力”

    花生壳推出MCP功能,让云端AI Agent能自主访问内网资源。用户只需在花生壳控制台生成MCP配置JSON,发送给OpenClaw等AI Agent,即可自动建立内网隧道。AI可指令创建端口映射,通过公网地址直接访问内网服务,并灵活修改或删除映射。该方案简化了传统繁琐的内网穿透配置,提升了开发效率,为私有化部署和内网自动化应用开辟了新可能。

  • 小米手机版龙虾Xiaomi miclaw来了!绝不用个人数据训练 小白也能快速部署

    今日,小米发布移动端Agent产品Xiaomi miclaw,目前面向科技发烧友、极客用户小规模测试,支持小米17、小米17 Pro、小米17 Pro Max、小米17 Ultra、小米17 Ultra徕卡版五款机型。 Xiaomi miclaw是基于小米MiMo大模型构建的AI交互测试产品,是国内首个手机端类OpenClaw(昵称龙虾”)Agent应用。 对于Xiaomi miclaw与OpenClaw之间的关系,小米表示,在产品理念层面,全球Agent的架构都类似,可以说�

  • 中国首个国产AI推理千卡集群落地 云天励飞助力打造湛江市“AI渗透之城”

    3月12日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设,金额4.2亿元。项目将基于其自研国产AI推理加速卡,打造中国首个全栈国产AI推理千卡集群,搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供便捷、低成本的AI能力。此举标志着湛江人工智能产业发展迈出实质性步伐,“AI渗透之城”建设进入全面提速新阶段。

  • 第一个能在手机上跑的小龙虾来了,它的名字,叫miclaw。

    ​在OpenClaw火了之后,其实已经基本证明了一件事。 Agent场景,是用户刚需场景。 这个场景,是任何厂商都不可能放弃的,这就是最前端入口,谁掌握了入口,谁就是那个笑到最后的大爹。 不止软件厂商,硬件厂商也更不可能放过这个Agent时代的船票。 上周五,小米的Agent产品Xiaomi miclaw,正式官宣。

  • 海尔×INDEMIND联合发布!HI-VA海娃陪伴机器人,重新定义AI陪伴新范式

    在AWE2026上,海尔与INDEMIND联合推出首款战略合作产品——HI-VA海娃家庭AI陪伴机器人。该产品以全场景、主动式、高安全的智能服务能力,为家庭提供情感慰藉、健康守护、全屋智能移动操控及隐私防护等多元服务。通过搭载ROBOMIND物理AI大脑,海娃实现空间智能感知与深度交互,并能实时构建家庭三维语义地图,精准识别环境变化。同时,针对银发群体,具备跌倒预警、用药提醒及紧急求助等功能,以科技筑牢家庭健康安全防线。此次合作标志着双方深耕家庭具身智能领域的开端,未来将持续探索多元形态的智能终端产品,推动个性化主动智能服务成为家庭生活常态。

  • 首批支持小米17系列 小米宣布Xiaomi miclaw封测:一句话操作手机、控制米家

    今日,小米宣布小米移动端AgentXiaomi miclaw开启小范围封测,本次封测不公开招募,采用邀请制,首批支持小米17系列。 Xiaomi miclaw是基于小米MiMo大模型构建的AI交互测试产品,和传统AI助手相比,Xiaomi miclaw拥有系统底层能力、个人上下文理解、生态互联和自进化四个层次能力。 小米表示,它能让手机成为AI的工具,在理解用户的意图和给予授权后,调用一方应用、生态能力,�

  • 新浪微博官宣接入KimiClaw:手机私信即可下发指令

    微博正式接入Kimi Claw,用户通过私信即可远程连接与控制AI智能体,标志着AI日常化应用迈出关键一步。此次合作将微博私信升级为AI轻量化控制终端,配置流程简洁高效。用户仅需两步即可完成设置,摆脱PC端依赖,仅凭微博移动端就能随时下达指令,远程操控AI执行各类任务,实现“手机在手AI我有”的移动化体验。依托微博实时资讯与多元用户生态,Kimi可在资讯解读、行情追踪等高频场景快速落地,加速技术迭代与场景验证。未来,微博计划面向AI应用开放博主历史博文等内容获取能力,助力更多优质AI应用触达用户。

今日大家都在搜的词: