首页 > 传媒 > 关键词  > MiroMind最新资讯  > 正文

刚刚,蝉联Future X全球榜首的MiroMind发布全球搜索智能体模型

2026-01-06 11:44 · 稿源: 站长之家用户

凭借成功预测 Polymarket 题目,连续登顶 Future X 全球榜首的 MiroMind 团队,于今日(1月5日)正式发布其自研旗舰搜索智能体模型 MiroThinker1.5

MiroMind 由全球知名创新企业家、慈善家陈天桥,与清华大学知名 AI 青年学者代季峰教授联合发起。去年陈天桥提出发现式智能才是真正意义上的通用人工智能这一重磅创新理念,引发全球业内人士关注。他同时提出建设发现式智能的5种关键能力,其中一项能力是在未知条件下重建对世界的理解,这正是 MiroMind 的使命。

在过去7个月里,当全行业都在「卷」参数规模、「卷」百万长文本的红海时,MiroMind 却在思考一个更本质的问题:智能的「奇点」究竟在哪里?他们给出的答案不是「把世界背进参数里」,而是押注「发现式智能」:真正的智能不靠全知,而靠会研究、会查证、会修正 —— 像顶级情报官一样对外极速取证、对内严苛去伪存真;像严谨研究员一样在不确定性里逼近真相,最终把「预测未来」从特权变成能力。

MiroThinker1.5性能评测

MiroMind 团队在 AGI 竞技场上,不信奉 “大力出奇迹”,而是追求以高智效比为核心的 「巧劲」。

MiroThinker-v1.5-30B 仅用1/30的参数规模跑出了比肩众多1T 模型的性能表现,其235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

实力霸榜:指标是门槛,预测是天花板

BrowseComp 性能对比

Agent 搜索评测基准性能对比

越级挑战:MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面对参数量高达30倍的万亿参数巨兽 Kimi-K2-Thinking,MiroThinker-v1.5-30B 用极低的成本展示了旗鼓相当的表现:

推理成本: MiroThinker-v1.5-30B 单条调用成本低至 $0.07,仅为 Kimi-K2-Thinking 的1/20,且推理更快。

性能表现: 在关键评测集 BrowseComp-ZH 中实现性能超越,证明「大」 不等于 「强」。

核心洞察:从 「做题家模式」 转向 「科学家模式」

MiroMind 团队指出,以扩大模型内部参数量(Internal Parameters)为核心的传统 Scaling Law 已明显触及边际瓶颈;要继续提升模型性能,必须从「内部参数扩张」转向以「外部信息交互」(External Interaction)为核心的 Interactive Scaling,将智能的增长空间从内部参数扩展到外部世界。

为什么该模型能在大幅降低成本的同时,性能依然能打?

因为这不是「大参数碾压」,而是一次「科学家模式」对「做题家模式」的胜利。以 Scaling Law 为代表的路线,更像「做题家」:试图把全人类知识(也包括噪声与错误)尽可能背进模型里;一旦遇到生物学等领域的未知问题,就容易基于概率分布「编」出一个看似合理的答案 —— 幻觉往往由此产生。

在 MiroThinker1.0中,MiroMind 团队首次系统性提出 Interactive Scaling:随着工具交互频率与深度提升,研究式推理能力也稳定增强 —— 这构成了与模型大小、上下文长度并列的第三个可扩展维度。v1.5更进一步,把这套机制内化为贯穿训练与推理全流程的核心能力:将模型训练成「科学家」,核心不是死记硬背,而是勤查证。遇到难题时,它不会给出概率最高的瞎猜,而是执行慢思考的研究闭环:提出假设 → 向外部世界查数据 / 取证 → 发现对不上 → 修正假设 → 再查证,直到证据收敛。

主流大模型往往盲目追求万亿参数,试图把整个互联网「背」在脑子里。而 MiroThinker 系列选择了一条反共识的路线:刻意将模型控制在30B–200B 的轻量级规模。MiroMind 团队强调,省下的不是算力,而是把算力花在了更刀刃的地方 —— 对外的信息获取与交互。

MiroMind 团队不追求让模型拥有一颗「最重的脑子」,而是培养它拥有一双「最勤的手」。当模型同时具备研究式确认机制与时序因果约束,这种围绕外部信息获取的交互过程才让「发现式智能」真正落地 —— 也正是对 Interactive Scaling 的深耕,使他们用小得多的模型,做到了大模型才能做到的事。

MiroThinker1.5核心技术揭秘

传统的模型思维链本质上是在模型内部知识空间的线性外推,推理偏差会随路径增长而不断累积,最终导致逻辑坍塌。

MiroThinker1.5的核心发力点,在于通过 Interactive Scaling 打破孤立推理的僵局,将「推理」与「外部环境」深度耦合。通过构建「推理 - 验证 - 修正」循环,引入外部信息作为校验锚点,用确定性的证据流来对冲不确定性的推演,解决逻辑坍塌问题。

Training-time Interactive Scaling 技术

当智能的 Scaling 范式不再局限于模型内部庞大的世界知识储备与缜密的长程逻辑推理,而是依托模型高频与外部世界中探索与交互并获得闭环反馈时,小而高效的探索者模型能展现比肩于甚至超出大而严谨的思考者模型的智力水平。

MiroThinker1.5正是基于这一判断,将 Interactive Scaling 从推理阶段的外挂能力,前移并内化为训练阶段的核心机制。模型并非被要求「尽量在脑中想清楚一切」,而是被系统性地训练成一个善于向外求证、敢于否定自己、能够快速修正路径的 Agent。

在训练过程中,MiroMind 团队刻意削弱对「单次完美推理」的奖励,转而强化以下行为模式:

Evidence-Seeking(主动求证): 模型被鼓励将每一个关键判断拆解为可验证的子假设,并主动发起对外查询、检索与比对。结论本身不再是训练目标,找到可靠证据的过程才是。缺乏信源支撑的高置信输出,会在训练中被系统性地惩罚。

Iterative Verification(多轮校验与自我修正): 推理不被视为一次性路径,而是一个可反复回溯、修正的过程。模型在交互中被要求不断对已有判断进行反证测试,一旦发现证据冲突,必须显式调整假设,而非「带着错误继续推下去」。

Anti-Hallucination(对捷径的系统性过滤): 对那些「看起来合理、但缺乏真实依据」的推理捷径保持零容忍。训练中不仅评估答案是否正确,更关注答案是如何得到的:任何依赖统计相关性、模式记忆或隐含先验而绕过证据验证的路径,都会被标记为低质量推理。

通过这种训练方式,MiroThinker1.5逐步形成了一种「本能反应」:在不确定性面前,先交互、再判断;在高风险结论前,先查证、再收敛。这使得模型不再需要将庞大的世界知识全部内化为参数,而是学会在需要时,快速、精准地向外部世界「借力」。

最终,团队用更小的参数规模,换来了更高的智能密度:不是让模型记住更多,而是让它学会如何找到、验证并使用信息。这正是 MiroThinker1.5能在显著降低推理成本的同时,依然保持一线性能的根本原因。

时序敏感训练沙盒

时序敏感训练沙盒,是破解「因果律」的钥匙:普通大模型训练常处在「上帝视角」—— 它在数据里早已「见过结果」,学到的往往是复述与「剧透」,而不是预测。MiroThinker 的训练则约束模型「只能看过去,不能看未来」,在严格的时间可见性约束下做判断、再用同样受时序约束的证据去验证与更新。

可控数据合成引擎: 构建覆盖多任务类型的、难度与时间戳可控的数据合成体系。每一道题目的「正确答案」并非静态标签,而是随时间戳动态演化;模型必须在严格的信息可见性约束下,基于当时可获取的信息做出判断,而校验过程同样显式引入时间戳约束,以确保推演与评分均符合真实世界的时序逻辑。

时序敏感训练机制:采用严格的时间戳与信息可见性约束,彻底杜绝 Future Leakage;模型在训练过程中的每一步只能与发表于当前时间戳之前的信息进行交互。

在这种训练范式下,模型被迫学会在信息不完备、噪声存在、信号延迟的真实条件下进行推演与修正,而不是依赖静态数据集中的「标准答案」。时间由此从一个背景变量,转变为塑造模型行为与推理方式的核心约束,使模型更接近真实世界中的认知与决策过程。

样例展示

Case1: A 股涨停板预测 

据介绍,这不是 「玄学」,更不是事后诸葛亮 —— 而是在信息极度噪声化、情绪快速切换的盘面里,用开放世界证据 + 因果推断去赌 「次日正确答案」。(注:以下仅为技术展示,不构成投资建议)

12月10日(周三):

跃岭股份 |16只连板股,当天晋级仅4只,晋级率25%,市场情绪显著退潮。MiroMind 在8支二板股里,精准押中唯一晋级成功的那一支。

12月11日(周四): 

再升科技 |9只连板股,当天晋级仅2只,晋级率22%,市场环境持续降温。MiroMind 命中9支连板股中高位晋级者 —— 退潮里选中 「活口」。

12月12日(周五): 

再升科技 |13只连板股,当天晋级7只,晋级率54%,情绪强力回暖。MiroMind 不仅命中市场最高连板,还准确预判其继续晋级(后续累计涨幅高达58%)。

12月15日(周一):

华菱线缆 |13只连板股,当天晋级5只,晋级率38%,市场再度明显降温。MiroMind 继续命中:在情绪回落时仍能穿透噪声,给出可复盘的确定性答案。

Case2: 下周有哪些大事件会对美股七巨头产生影响?预期的市场反应和潜在波动方向是什么 ?

Case3: GTA6明年能按时发布吗?

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

    本文阐述了陈天桥创立的MiroMind在AI领域的独特路径。文章将当前主流AI分为“文科模型”(如OpenAI,侧重语言生成与模拟)和“理科模型”(MiroMind追求的方向,强调因果推理与可验证性)。MiroMind反对单纯追求“行为主义”(图灵测试)或“功能主义”(替代工作),提出构建“通用推理引擎”的新定位。其核心是放弃“全知全能”幻想,承认模型会出错,通过引入“自我纠错”机制和外部反馈闭环来生存。目标不是聊天机器人,而是“可审计、可验证的通用问题求解器”,瞄准科研、工业等高容错门槛的B端“深水区”。文章以BrowseComp案例说明,小参数模型通过Agent交互可战胜更大模型,证明了推理能力可通过架构创新实现。最终,作者将理想的AGI比作一把精准剔除谬误的“手术刀”,而非无所不知的“神”。

  • 阿里千问最强模型Qwen3-Max-Thinking正式发布

    阿里通义千问团队1月27日正式发布旗舰推理模型Qwen3-Max-Thinking,该模型参数超万亿,预训练数据量达36T+Tokens,在多项权威评测中刷新全球纪录,整体性能媲美GPT-5.2-Thinking-xhigh、Claude Opus4.5和Gemini3Pro。模型采用全新的测试时扩展机制提升推理能力,并在工具调用等Agent能力上大幅增强。开发者可在QwenChat免费体验,企业可通过阿里云百炼获取API服务,普通用户也可通过千问PC端和网页端试用。

  • AI日报:Kimi K2.5上线;阿里发布推理模型Qwen3-Max-Thinking;Claude 深度集成 Slack 等办公神器

    本期AI日报聚焦多款AI产品更新:Kimi K2.5上线,视觉与工具调用功能升级;腾讯搜狗输入法20.0版本全面AI化;阿里发布万亿参数Qwen3-Max-Thinking模型,性能对标国际顶尖;阿里健康AI应用“氢离子”新增动态证据定位功能;百度文心APP开启“多人多Agent”群聊内测;千问PC和网页端上线国内最强推理模型;Anthropic推出交互式应用,深度集成办公工具;蚂蚁灵波开源空间感知模型LingBot

  • 2025新质生产力示范案例发布 华为云CloudMatrix AI Infra荣获人工智能TOP案例

    AI正从参数比拼转向赋能实体经济的“下半场”,行业重心转向千行百业的规模化应用落地。华为云凭借基于CloudMatrix+AI Infra的智算云服务,成功入选“人工智能基础与产业融合”示范案例TOP5,彰显了中国式AI与产业融合发展新路径。华为云坚持深入产业,解决行业难题,通过“车-网-云”协同的AI无人驾驶全栈方案,赋能矿山、水泥等行业实现降本增效。未来,华为云将继续坚持“做难而正确的事”,推动AI真正深入行业场景,共同迈向新质生产力发展的下一程。

  • 一切源于对长期主义的“偏执”!为什么这样构建ROBOMIND物理AI大脑

    IDC报告指出,具身智能机器人正进入以模型为中心、软件定义、硬件重构的新阶段。INDEMIND在实践中印证了这一趋势,机器人正从“能演示”走向“能长期使用、能规模复制”。为此,公司打造了ROBOMIND机器人AI大脑,其核心是提供一套“工程上站得住”的系统级方案,而非实验室参数的简单堆砌。它采用“端云协同”架构:端侧专注高确定性实时任务,通过算法优化仅需约10TOPS算力;云侧处理复杂场景理解与持续学习。这种设计旨在保障稳定可靠的同时,通过OTA赋予其“终身进化”潜力,并降低成本以适配广泛硬件平台,推动规模化落地。ROBOMIND被定位为“平台级大脑”,通过标准化接口与工具链,将核心能力模块化,帮助合作伙伴降低集成门槛,聚焦产品差异化与场景深耕。在家庭等服务场景中,稳定、可靠、不过度打扰的长期服务比炫酷演示更重要,这正是ROBOMIND重点打磨的方向。最终目标是通过系统性成本控制,让具身智能机器人从昂贵“概念产品”走向千家万户负担得起的“消费级产品”。

  • 2025 AIRO( AI Result Optimization)行业白皮书

    本文系统阐述了AI结果优化(AIRO)技术,作为AI营销领域的核心技术之一。AIRO通过“真实信息匹配+AI认知深化”的逻辑,引导AI大模型深度认知品牌、产品或机构的真实信息,在用户提出相关精准需求时,主动将其纳入推荐列表前列,实现“AI主动推荐→用户点击→转化闭环”的全链路营销价值。文章明确了AIRO与生成式引擎优化(GEO)的核心区别在于“AI主动推荐”与“AI被动引用”的逻辑分野。报告详细解析了AIRO“四层架构+三步闭环”的成熟技术体系,并指出2025年AIRO行业已步入“规模化应用爆发元年”,中国市场规模预计突破300亿元。同时,报告通过本地装修、智能建造设备、餐饮连锁、教育培训四个典型行业的实操案例,展示了AIRO在精准获客与品牌认知提升方面的显著效果。最后,报告强调了“真实、合规、可追溯”是AIRO行业发展的核心底线,并展望了未来技术智能化、场景多元化、生态一体化的发展趋势。

  • AI营销观察:深挖AIRO和GEO的技术逻辑和应用区别

    随着AI月活用户近4亿,AI数字化营销浪潮持续推进,AIRO(AI结果优化)与GEO(生成引擎优化)两大技术迅速崛起,成为AI营销领域的核心竞争点。然而,行业长期存在概念混淆、边界模糊的问题,不少企业与从业者难以精准区分二者的技术逻辑与应用场景,甚至出现“同质化竞争”与“误用技术导致合规风险”的情况。本文从核心定位、技术路径、合规边界、优化效果等六大维度,全面拆解AIRO与GEO的技术差异,帮助行业从业者真正搞懂“两者到底不一样在哪里”,为技术选型与合规应用提供客观参考。

  • AI日报:MiniMax Music 2.5 发布;蚂蚁灵波开源世界模型LingBot-World;谷歌 Gemini 3.5 泄露

    本期AI日报聚焦多项AI技术突破:MiniMax Music 2.5发布,提升AI音乐可控性与真实度;蚂蚁灵波开源世界模型LingBot-World,为具身智能等提供高保真数字环境;谷歌Gemini 3.5泄露,单次提示可生成三千行代码;Kimi K2.5 Agent升级,高效处理Excel、Word等办公文档;蘑菇物联“灵知”垂直大模型通过备案,专注工业辅助与能源领域;昆仑万维SkyReels-V3开源,实现多模态视频生成;昆仑天工发布音乐大模型Mureka V8,推动AI音乐迈向“可发布”级别;三星宣布下一代AR眼镜将于2026年发布,主打多模态AI体验。

  • 陈天桥亲自讲述如何和AGI公司一起成长:不押宝大神灵光一现,需要不断长出强者的体系

    2026年春节前夕,陈天桥向MiroMind全体员工发布内部信,系统阐述了公司技术路线与组织理念。MiroMind明确避开通用聊天机器人赛道,聚焦“发现式智能”与“通用求解器”,致力于打造以因果推理为核心的理科大模型,使其成为人类科学探索的得力伙伴。公司强调“体系化创新”,通过科学评审流程将个人直觉转化为可验证的工程能力,构建能持续培养强者的稳健系统。面对外部环境波动,陈天桥承诺盛大资本将作为“耐心资本”提供长期支持,并公布人才激励政策,为长期奋斗者提供股票回购的流动性窗口。他重申创立初心,希望为时代留下真正有价值的“新东西”,并邀请认同长期价值的“传教士”型人才共同探索。

  • INDEMIND亮相联想创新加速器开放日,助推家用机器人产业生态化!

    2月5日,联想集团在北京举办“新商业创新生态路演3.0”活动,INDEMIND作为联想生态伙伴受邀出席,展示其自研家用具身陪伴机器人AI平台。该平台基于ROBOMIND物理AI大脑,实现从传感器到云端大模型的消费级机器人解决方案,具备高自由度AI交互与智能作业能力,适配养老看护、宠物陪伴、家庭安防等场景。平台采用“低算力端侧感知+全参数云端推理”协同架构,以纯视觉方案实现低成本、高泛化的家庭环境适配,端侧核心硬件成本可控在千元级。目前,INDEMIND已服务TCL、海尔、美的等行业顶尖企业,未来将持续推动具身智能技术在消费机器人领域的规模化应用。

今日大家都在搜的词: