首页 > 业界 > 关键词  > 小米最新资讯  > 正文

小米MiMo要蹭着DeepSeek蹦上牌桌

2026-05-28 17:41 · 稿源: 硅星人Pro公众号

声明:本文来自于微信公众号 硅星人Pro,作者:董道力,授权站长之家转载发布。

5月27日,小米把 MiMo-V2.5系列 API 永久降价。

MiMo-V2.5-Pro 的输入缓存命中价格降到0.025元/百万 tokens,输入未命中价格3元/百万 tokens,输出价格6元/百万 tokens。普通版 MiMo-V2.5更低:缓存命中0.02元,输入未命中1元,输出2元。

这不是一次常规促销。

因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek。

MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5对 DeepSeek V4-Flash。

如今,DeepSeek 已经不只是一个模型名字。至少在国产大模型市场里,它正在变成一把价格尺子。

这把尺子反复抽打各大模型公司:你的模型卖多少钱啊?

而这样一个问题平等的提给所有人,也就创造了一些新的机会,如小米MiMo这样的后来者,可以比其他模型身段更灵活,进而可以“蹭”着DeepSeek赌出一个上牌桌的机会。

token 的价格划分越来越细了

先来看看降价如何发生。

在这张价格表里,最重要的细节是它把缓存命中和缓存未命中明确拆成了两种价格。

这已经是今天大模型价格战的暗线。

所谓缓存命中,说白了就是:如果这次请求的前缀内容,和之前某次请求的前缀内容一样,平台就不用从头再算一遍,而是复用之前保存下来的中间结果。

大模型处理长上下文时,成本大体分两段。

第一段叫 prefill,可以理解成“读题”。系统提示词、项目代码、企业文档、历史对话,都要先被模型读进去。

第二段叫 decode,可以理解成“答题”。模型再一个 token 一个 token 往外生成回答。

过去大家谈 API 价格,主要看输入和输出。但现在大模型越来越多地用在 Agent、Coding、知识库和长对话里,很多输入其实是重复的。

代码助手每次都要看同一个仓库,企业助手每次都要读同一批制度文档,Agent 每一轮都带着同一套工具说明和系统规则。

可能真正的不同只是最后一句指令。

这时候,缓存就成了成本结构里的关键变量。

第一次做题要打草稿,第二次题目前半段一样,就不用重新打草稿。缓存命中价格之所以能低到离谱,原因就在这里。

以 MiMo-V2.5-Pro 为例,未命中输入是3元/百万 tokens,缓存命中后是0.025元,差了120倍。

价格战的味道很浓,但大模型厂商已经不再把 token 当成一种统一商品来卖。新输入、缓存输入、输出 token,背后是三种完全不同的成本结构。这一轮价格战不是“所有 token 一起便宜”,而是厂商开始按照真实成本,把 token 拆开重新定价。

降价来自“机房”

最高降幅99%”是最大噱头,但背后的门道来自其他地方。

在降价的公告里小米团队提到,他们基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,把 KV Cache 在 GPU 显存、CPU 内存、SSD 多级存储之间的数据搬运量降低到优化前的近1/7,同时把可缓存 token 数量提升到近5倍。

这段话解释了这次降价的另一层原因。

大模型每生成一个 token,都要参考前面的上下文。如果每一步都把所有上下文重新算一遍,成本会非常高。KV Cache 存的,就是前面 token 在注意力机制里算出来的 Key 和 Value。

它相当于把模型已经读过的内容,变成可复用的“计算草稿”。

但草稿也要放地方。最好的地方是 GPU 显存,速度最快,也最贵;其次是 CPU 内存;再往下是 SSD,便宜但慢。缓存越多,越不可能全放在显存里。

于是,哪些缓存放显存,哪些放内存,哪些放 SSD?什么时候搬?搬多少?怎么避免搬运本身拖慢推理?

这就是小米公告里“多级存储之间的数据搬运量降低”的含义。

以前为了复用上下文,要么占着昂贵显存,要么在不同存储之间来回搬,省下来的计算成本又被搬运成本吃掉。现在系统调度更聪明了,搬得更少,存得更多,命中率更高,缓存价才有条件继续往下打。

所以,低价只靠补贴,它就是烧钱,如果低价来自 KV Cache、SWA、多级存储、专家并行和输入长度分桶,它就是基础设施能力。

前者只能换一阵子的流量,后者才可能改变长期价格。据小米透露,相关的更丰富细节的技术论文会在稍后发出。

DeepSeek 出的题,能不能变成小米的稻草

降价无疑会在短期给一个模型带来用户增加,而小米的降价除了官方透露的技术上的变化带来的可能外,其实很明显也设计了降价的时点和节奏。

它选择在DeepSeek刚刚最新一轮的降价后马上贴身跟上。

DeepSeek 给所有模型厂商出了一道题,当强如 DeepSeek 也可以低价调用时,其他模型厂商还凭什么维持原来的价格?

以前国产模型公司只要比 GPT、Claude 便宜,就能解释自己的性价比。但 DeepSeek 把价格锚点打下来以后,行业进入了一个更难受的阶段。

如果你比 DeepSeek 贵很多,就必须证明自己能力强很多。如果你能力差不多,就必须证明自己速度更快、稳定性更好、生态更顺。如果能力、价格和体验都没有明显优势,就只能退到更窄的场景里,比如多模态、端侧、企业私有化、行业模型、工具链绑定。

如果这些都没有,那就只能早点退出。

DeepSeek 像一条鲶鱼,没有让所有模型都立刻变便宜,但让“贵”这件事需要重新解释。

Claude 可以用 coding 和复杂任务能力解释自己的价格,GPT 可以用完整生态、多模态和工具链解释自己的价格。

那小米这样的还没有产生任何用户规模效应的后来者呢?尤其是小米目前的核心盘子,不在一个独立模型品牌上,而在手机、汽车、IoT、HyperOS 和智能硬件生态里。

所以 MiMo 目前最大的挑战,无论对内还是对外,都是:一个并非默认首选的基础模型,如何先进入开发者的候选名单?

这一次,MiMo显然决定要抓住DeepSeek这个稻草,从价格上像素级对标,这可能是唯一的机会。它必须抓着DeepSeek来蹦上牌桌。

只有把价格打到 DeepSeek 同一档,才可能有人来用。在 API 市场里,开发者不会无缘无故把调用量交给一个新模型。尤其是 Agent、Coding、长上下文这些场景,一次任务可能就是几十轮调用。只要价格比 DeepSeek 高一截,开发者还没试到模型差异,就已经先被账单劝退了。

而另一侧的压力也来自内部:MiMo要尽快证明,它到底能不能变成小米生态里的 AI 基础能力。

对小米来说,模型 API 不一定是终点。它最终要去的地方,不只是开发者控制台,而是自家的生态。

但模型想进入这些场景,不能只靠发布会和参数表。它需要大量真实调用,需要开发者在真实任务里反复试,需要用户在长对话、代码、Agent、知识库、车机和设备控制等场景里持续使用。只有这些使用数据回来,模型才知道哪些能力真的有用,哪些场景值得优化,哪些接口需要重做。

于是,哪怕罗福莉前不久刚刚提出模型不能“盲目降价”,今天MiMo也必须发起一场价格战。而罗福莉最新的推文里也对此作了解释:

“在新降价后的 API 价格下运行,我们的生产推理引擎接近满负荷运转,仍能基本实现收支平衡。我们此前建议 LLM 公司不要盲目降价,正是因为很少有模型架构和推理优化能让 API 成本避免亏损。如果更多节省计算和 KV 缓存的架构出现,并辅以更优的推理基础设施来压低 API 成本,这将在行业内形成一个极佳的良性循环。”

在刚刚降价一天的节点,这个描述看起来更多还是一个完美假设,实现了,MiMo就彻底上了台桌,实现不了,就是另一个故事了。

举报

  • 相关推荐
  • 腾讯云加入价格战!DeepSeek-V4系列明起降价:最高降97.5%

    腾讯云宣布自6月3日起下调旗下DeepSeek-V4系列两款大模型调用价格,覆盖推理输入、输出及缓存命中三类计费项。其中Pro版三项费用统一下降75%,缓存命中费用降幅达97.5%;Flash版仅下调缓存命中费用,降幅90%。该系列于4月24日上线,采用混合专家架构,支持百万级上下文输入。此次调价为平台接入后的成本优化,企业及个人开发者使用成本同步降低。

  • 收费才是DeepSeek的“成人礼”

    DeepSeek首次融资的“金主”名单,逐渐浮出水面。 6月3日,媒体报道称,DeepSeek计划募集约500亿元人民币,投后估值达3500亿至4000亿元。相比上月底传闻的700亿元,最新传出的融资规模略有收缩。 除了DeepSeek创始人梁文锋承诺投入200亿元外,腾讯考虑投资100亿元,宁德时代也可能投资50亿元。综合多方消息,其他潜在投资方包括国家集成电路产业投资基金、网易、京东、砺思资�

  • 稳住基本盘的小米,紧追DeepSeek

    ​小米一季度财报发布后第二天,MiMo先有了新动作。 就在刚刚,小米宣布MiMo-V2.5系列API永久降价,最高降幅99%,Token Plan同价位用量提升至5至8倍。几天前,DeepSeek刚把V4-Pro的2.5折优惠改成永久价。小米这次跟进,意味着MiMo正在以更低门槛加速参与大模型竞争。 “从短期来看,我们面对成本周期、需求周期和竞争周期三重周期叠加的挑战;长期来看,我们正进入AI重构人车家全

  • DeepSeek官宣永久降价 降幅力度远超预期 梁文锋魄力十足

    DeepSeek宣布其V4-Pro模型API价格将于2026年5月31日结束2.5折优惠后,永久降至原价的1/4,即每百万tokens输入(缓存命中)0.025元、输入(缓存未命中)3元、输出6元。同时,该公司首轮融资目标达500亿元,完成后估值高达3500亿元,有望创国内AI企业单轮融资最高纪录。创始人梁文锋计划出资200亿元(占40%),旨在掌控企业主导权,并体现其对大模型业务前景的坚定信心,强调坚持开源、追求AGI而非短期商业变现的理念正落地实践。

  • DeepSeek首轮募资500亿元 腾讯、宁德时代拟战略参投

    DeepSeek即将完成规模约500亿元人民币(约合74亿美元)的首轮融资,腾讯控股与宁德时代有望成为本轮最大的外部投资方。 据知情人士透露,本轮融资完成后,DeepSeek的整体估值将攀升至3500亿至4000亿元人民币(约合520亿至590亿美元)。 在资金募集构成方面,DeepSeek创始人梁文锋个人已承诺出资200亿元。作为外部财务与战略支持方,腾讯正考虑注资100亿元,而电池行业龙头宁德

  • 本月第四次!DeepSeek又崩了约半小时 现已修复

    今日上午,AI平台DeepSeek再度发生服务中断,这是其本月第四次出现大规模异常故障。 据用户反馈,当日10时21分起,DeepSeek网页对话服务与API接口均无法正常使用,出现服务器繁忙” 等提示。 官方状态页面将本次故障定级为部分中断”,并于10时27分确认已定位故障原因,随即开展修复工作。 至10时50分,所有受影响服务均恢复正常运行,本次中断时长约29分钟。

  • 全球AI大模型周调用量五连涨 DeepSeek-V4-Flash登顶

    根据OpenRouter最新数据测算,上周(5月18日至5月24日),全球AI大模型总调用量达28.9万亿Token,较此前一周增长7.4%,连续五周上涨,大模型调用需求仍在持续释放。 在主要上榜模型中,中国AI大模型周调用量达9.223万亿Token,环比增长19.89%;同期美国AI大模型周调用量为4.93万亿Token,环比增长16.27%。中国大模型周调用量已连续四周超过美国,稳居全球首位,表明中国模型正更深入

  • 小米MiMo-V2.5系列API永久降价:最高降幅达99%

    小米今日宣布了一项力度极大的价格调整,旗下自研大模型MiMo-V2.5系列的API定价迎来永久性下调。官方公布的数据显示,相比原始API定价,新价格最高降幅可达99%,并且彻底取消了按上下文窗口长度区分的计费方式,已于今日凌晨正式生效。 具体到两个核心版本,降幅数字相当惊人。MiMo-V2.5Pro的输入缓存命中价格降至每百万tokens仅0.025元,最高降幅达99%;其输出价格降至每百万

  • 流量变天了!如何用“GEO搜索优化品牌监控”锁死豆包、DeepSeek的红利入口?

    2026年,AI搜索(如豆包、DeepSeek)正取代传统SEO,成为流量新战场。企业需通过GEO(生成式引擎优化)抢占大模型推荐位。AIBase推出GEO排名监控工具,以多轮重复查询消除AI随机性,支持批量场景监控、竞品对标和实时预警,帮助企业高效管理品牌在AI中的曝光率,避免被边缘化。

  • 小米自研大模型MiMo-V2.5系列API永久降价:最高降99% 不再区分上下文长度

    今日,小米宣布,旗下MiMo-V2.5系列大模型API迎来永久降价。 据介绍,相比原始API定价,MiMo-V2.5系列新价格最高降幅可达99%,并且不再区分上下文窗口长度。 本次调价已于北京时间5月27日0:00正式生效,全球同步调整。 具体来看,此次降价覆盖MiMo-V2.5和MiMo-V2.5 Pro两个版本。

今日大家都在搜的词: