首页 > 热点 > 关键词  > 小米大模型最新资讯  > 正文

小米MiMo-V2.5系列API降价:降幅达99%

2026-05-27 14:15 · 稿源:站长之家

站长之家(ChinaZ.com)5月27日 消息:小米今日宣布了一项力度极大的价格调整,旗下自研大模型MiMo-V2.5系列的API定价迎来永久性下调。官方公布的数据显示,相比原始API定价,新价格最高降幅可达99%,并且彻底取消了按上下文窗口长度区分的计费方式,已于今日凌晨正式生效。

具体到两个核心版本,降幅数字相当惊人。MiMo-V2.5Pro的输入缓存命中价格降至每百万tokens仅0.025元,最高降幅达99%;其输出价格降至每百万tokens6元,最高降幅为86%。MiMo-V2.5标准版的输入缓存命中价格则降至0.02元,输出价格降至2元,对应的最高降幅分别为98%和93%。

小米自研大模型MiMo-V2. 5 系列API永久降价:最高降99% 不再区分上下文长度

除了API单价本身,小米也同步优化了Token Plan计费体系。在维持原价的前提下,新版Token Plan的可用用量提升至原来的5到8倍,并引入“Credits”概念,试图让整体计费规则变得更透明直观。

支撑这轮大幅降价的,是技术团队在推理系统层面的持续优化。小米基于SGLang HiCache,完整支持了滑动窗口注意力机制,成功将KV缓存数据在多级存储之间的搬运量降至优化前的近七分之一,同时将可缓存的token数量提升至原来的近5倍。这直接拉高了缓存命中率与推理效率。

此外,通过优化专家并行方案和输入长度分桶策略,集群的输入吞吐能力得到进一步提升,在保障服务质量的同时压低了单位token的服务成本。这轮降价,既是市场策略,也是底层工程优化能力的一次对外展示。

举报

  • 相关推荐
  • AI日报:小米MiMo-V2.5系列API永久降价;千问升级拍照问健康;豆包将禁用拍题答疑

    本期AI日报涵盖8大热点:1.小米MiMo-V2.5系列API永久降价最高99%,优化计费体系降本增效;2.通义千问升级“拍照问健康”功能,实现医学图像理解与临床推理;3.多家AI平台高考期间服务受限,豆包禁用拍题答疑,腾讯元宝延续不答题策略;4.MiniMax M3大模型即将发布,稀疏注意力架构使性能提升9.7-15.6倍;5.上海发布“沪8条”政策,最高千万资助AI微短剧全流程智能化发展;6.MiniMax、阶跃星辰联手支付宝,共建AI原生支付基座;7.环球音乐与TikTok续签授权协议,AI音乐治理成合作核心;8.Google将SynthID水印技术集成至搜索与Chrome,一键验证AI生成内容真实性。

  • 科技照进现实 鸿蒙原生首个3D大模型AI应用V2Fun正式发布

    6月13日,华为HDC2026大会上,Vertex Lab旗下V2Fun鸿蒙原生App正式亮相并上线应用市场。作为鸿蒙首个3D大模型AI原生应用,V2Fun通过自研大模型,实现从2D照片到3D模型的极简转化,用户仅需拍照或上传图片,数十秒即可生成高精度3D模型,支持360°预览、3D打印格式导出及四种风格化图片生成。App深度集成华为图库、近场分享及跨设备3D打印互联,配合Web端专业管线,实现“移动端起草、专业端深化”的无缝衔接,让3D创作人人可用。

  • 小米大模型推理速度全球最快!1000 tokens/s是啥概念:官方科普

    日前,小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。 据介绍,这是全球首个在通用GPU上突破1000 tokens/s的万亿参数模型,刷新了旗舰模型的全球最快推理速度。 今日,小米技术”公众号发文科普了什么是1000 tokens/s,以及这一速度到底有多快。 小米表示,token即词元,是大模型中的计量单位,类似日常买菜时使用的斤”两”。 1000 tokens/s也就是1000 Tokens Per Second,简称1000 TPS,意

  • 小米发布Xiaomi MiMo Claw正式版:免费时长增加!打通金山办公

    小米正式发布MiMo Claw,依托最新大模型实现一键部署智能体,并与金山办公打通。其核心模型MiMo-V2.5-Pro支持百万级超长上下文、千次工具调用,任务达标率63.8%,Token消耗降低40%以上。办公场景实现文档AI生成、实时编辑闭环,兼容超95%主流格式。免费用户每日使用时长延至4小时,订阅首月特惠14.9元,提供多档套餐,海外服务暂未开放。

  • 小米自研大模型MiMo-V2.5系列API永久降价:最高降99% 不再区分上下文长度

    今日,小米宣布,旗下MiMo-V2.5系列大模型API迎来永久降价。 据介绍,相比原始API定价,MiMo-V2.5系列新价格最高降幅可达99%,并且不再区分上下文窗口长度。 本次调价已于北京时间5月27日0:00正式生效,全球同步调整。 具体来看,此次降价覆盖MiMo-V2.5和MiMo-V2.5 Pro两个版本。

  • 阿里发布首个具身大模型Qwen-Robot系列:三个模型支持协同运转

    近日阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列,涵盖VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav与世界模型Qwen-RobotWorld三大核心模型。 这是千问大模型家族首个完整的具身智能模型矩阵三个模型分别为机器人赋予操作能力、导航能力和环境认知能力,既可独立部署,亦可协同运转,为各类形态的机器人走向真实场景提供了统一的通用底座”。 当前,全球具身智�

  • 机器人伴侣仅限成人购买使用:内置养成系专属情感大模型

    上线仅10天,主打情感陪伴的人形机器人U1为优必选收获了超过3800台预售订单,对应定金总额逾千万元。对于去年仅售出1079台人形机器人的优必选而言,这次尝试已算小有突破”。 U1系列分男女两款机型:男款身高183厘米、重42公斤;女款身高168厘米、重35.2公斤。 两款均支持Wi-Fi连接,单次充电续航2至4小时,无3C”认证,配备88个高自由度运动关节,搭载养成系”情感大模型

  • 小米发布MiMo-V2.5-Pro-UltraSpeed:生成速度提升10倍!突破1000 tokens/s

    小米联合TileRT推出MiMo-V2.5-Pro-UltraSpeed,基于万亿参数大模型,在单台标准8卡GPU节点上首次将文本生成速度提升至1000+ tokens/s,峰值可达1200 tokens/s,无需定制专用芯片,大幅降低极速AI推理门槛。该版本同步上线运时API服务,定价为原版的3倍但速度提升约10倍,性价比突出。服务采用申请制,6月9日至23日开放试用,企业及开发者优先,普通用户可免费体验对话功能。性能飞跃依赖三大技术创新:FP4量化技术、DFlash区块并行预测解码和TileRT推理系统,重塑了AI应用场景,支持模型并行推演、自主纠错等,缓解代码生成等待,赋能高频交易、实时反欺诈等毫秒级决策场景。

  • 大模型调用成本暴跌90%,盘活数据成为企业AI落地胜负手

    本月DeepSeek V4Pro开启永久降价,价格仅为原来的四分之一,缓存命中低至0.025元每百万token,引发行业“跳水式降价”。随着模型效率提升、算力成本优化和市场竞争加剧,大模型调用成本全面下行已成共识。国内公有云大模型API均价较2023年已下跌超90%,性能提升3至5倍。AI普惠时代来临,企业接入门槛快速抹平,但决定AI落地效果的核心变量转向企业自身的数据根基。数据准确性、治理规范、权限管理及智能体对核心数据的安全高效访问,直接影响AI应用效果。Gartner研究显示,85%的失败AI项目源于数据质量缺陷。数据底座正成为企业业务效率与决策方式的关键基础设施,逻辑数据管理路径被越来越多企业验证:在分布式环境上构建可信、实时、可治理的逻辑数据层,让智能体在不触碰数据物理位置的情况下安全、准确、实时获取所需,将AI能力真正嵌入业务流程。Agent时代,模型是入场券,数据才是护城河。

  • 格尔AI大模型安全保险箱荣膺第十二届上交会“镇馆之宝”

    近日,第十二届中国(上海)国际技术进出口交易会上,格尔软件自主研发的“格尔AI大模型安全保险箱”荣获最高荣誉“镇馆之宝”,成为上交会史上首家获此殊荣的民营科技企业。该产品针对大模型应用中的知识产权泄露、数据外泄等痛点,通过加密、权控、可信三大机制构建安全闭环,实现内核级防护,支持主流大模型及框架,兼容国产系统与架构,已通过权威评估,并落地于大模型厂商、政企用户及算力平台三大场景,标志着业界对“密码+AI安全”路线的高度认可。

今日大家都在搜的词: