首页 > 业界 > 关键词  > MiniMax最新资讯  > 正文

MiniMax让AI语音有了新基建

2025-10-31 14:26 · 稿源: 光子星球公众号

声明:本文来自于微信公众号 光子星球,作者:郝鑫,授权站长之家转载发布。

熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。

要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。

十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全能创作”的Media Agent;新的语音模型Speech2.6,重新定义下一代Voice Agent的语音模型。

图片

MiniMax创始人闫俊杰在开篇引用了《老子》里的一个词“大巧若拙”,大意是技术最高境界的“巧”,要回归本质,解决实际问题,这几乎奠定了本次升级的基调。

语音模型升级亦是如此,Speech2.6并非只是单纯刷模型指标,而是一次综合性的更新。一方面是模型能力提升,涉及新增利用Lora提升流利度、特殊格式读取等功能。另一方面是对端到端API的工程优化,比如低延时、首包优化等。

也是一次从技术落地到场景的再深化,其核心目标是给做智能语音助手、客服系统、多轮对话产品等B端厂商和开发者,提供一个“开箱即用”的引擎。

从诞生起,MiniMax便确定了多模态全栈自研的战略,表现为多线并进、交叉突破。放眼望去,Speech2.6Agent化的背后是更广阔的Voice Agent赛道。

有研究报告估测,2030年Voice Agent市场规模保守估计,可达百亿美元级别,若技术发展超预期,可能进一步上涨。

更快、更懂行、更完美

为什么要专门针对Voice Agent来优化?

Voice Agent可以理解为“语音交互代理人”,它是连接用户语音指令与后端服务的核心桥梁。与传统语音指令识别不同,不只是简单将语音转成文字,而是具备完整的交互能力。

小到智能音箱日常问答,大到企业客服系统的智能应答,几乎所有需要“用说话代替打字”的场景,都依赖Voice Agent来承接需求、理解意图并给出反馈。可以说,Voice Agent是当前覆盖范围最广、用户需求最迫切的语音交互形态,对其优化就是直接提升所有语音场景的效率和体验。

如果把Voice Agent 比作行驶的汽车,那么语音模型就是发动机。语音模型的性能直接决定了Voice Agent的场景化效果,Voice Agent的背后必须拥有一个强大的语音模型底座。

Speech2.6正是延续了上述思路,在继续提高语音模型性能的基础上,全面升级突破Voice Agent场景,实现超低延时,专业格式无障碍和更高自然度。

用户对语音的敏感度远高于文字,快一毫秒或迟一毫秒,效果相去甚远。在日常语音交互中最烦人的就是“卡壳”,Speech2.6这回把“首包响应时间”压到了250毫秒,体感相当于眨一下眼三分之一的时间。据我们了解,虽然国外部分顶流模型宣称可达到75毫秒,但实际场景测试过程中平均保持在200-300毫秒。MiniMax的250毫秒响应速度,已经达到了语音赛道绝对头部的水平。

实际场景测试,光子星球,2分钟

用户最直观的感受就是几乎感觉不到卡顿,像真人聊天一样流畅。像这个案例就是最常见的客服咨询场景,在音色上已经分辨不出人和AI的区别,AI能精准、连续识别用户的意图,比如“你是不是助理”“有什么新功能”“有没有优惠”等。在无缝衔接作出回答的同时,完成了反问和留资,具备了人类对话中的精髓——“有来有往”。

第二个升级的点是,模型变得“更聪明”和“更懂行”。以前用语音模型,遇到电话、邮箱、网址、数学公式这类专业内容,得手动改写输入,比如要读出“guang-zi@tech.com”必须要写成“guang dash zi at tech dot com”,否则AI可能会读错。时间识别也是同样问题,要正确读出“2025-10-29”,就得严格输入“二零二五年十月二十九日”。而升级后的Speech2.6无需人工教学,直接就能解码读出来。

别看这个点细微,但却有大用处。试想一下所有涉及语音交互的场景,最重要的就是获取信息和建联,如果在关键环节出错,那之前所有都沦为了无效沟通。对开发者来说省事又高效,尤其是智能客服、日程管理、教育类语音代理团队,不用再花精力调prompt或改文本,相关的技术栈都能简化,

还有一个亮点功能是“化腐朽为神奇”,做音色克隆时,最怕用户提供的录音素材不完美,比如说话结巴、带口音、非母语不流利等。Speech2.6新增的“Fluent Lora”功能,哪怕素材是“磕磕巴巴”的,也能复刻出流畅自然的声音。

举个例子,你想复刻一位外国友人的中文语音,但他中文说得慢且有口音,以前生成的AI语音可能也跟着结巴。现在Speech2.6直接用他的原始录音,但生成的语音依然流畅自然。这对需要大量用户自定义音色的场景,例如有声书、个性化语音助手非常实用。

Voice Agent,把行业重做一遍

回顾MiniMax Speech系列模型的自我演进历程,某种意义上也是国内AI语音技术,从模仿拟人逐渐走向交互智能的缩影。

今年5月份,MiniMax发布语音模型MiniMax Speech02,创新的“Zero-Shot”能力,通过一个模型,提供任意“语言×任意口音×任意音色”的无限组合,丰富了语音生成的多样性。

彼时,Speech02一经推出,就登顶“Artificial Analysis Speech Arena”和“Hugging Face TTS Arena”两大权威榜单,力压ElevenLabs、OpenAI等国际顶尖竞争对手。

8月份,MiniMax Speech2.5上线,进一步把各项技能点满,实现三大新突破:多语种表现力更强、音色复刻更像、40个语种覆盖更广。多语种能力直接瞄准国际市场,为MiniMax出海奠定了基础。

最后来到刚更新的Speech2.6,揭开Voice Agent新篇章,开始针对实用场景进行综合提升,反映其背后商业化的清晰战略。大模型与语音技术深度融合,正在推动AI语音从工具属性向与场景绑定的智能体演进,从前一阶段的能听懂升级为会思考、善沟通。

图片

在商业世界,入口是一个极具吸引力的词语。大模型之战开启之后,语音交互再次被认为是具有增长前景长的新入口。落地到许多人力密集的传统行业,很多都可以用Voice Agent来重新做一遍。这里面有两条逻辑贯穿始终,一是“成本归零”,二是“服务扩展性”。

To B场景中,Voice Agent可以替代大量重复性的人工沟通工作,如客服、外呼销售、员工培训等。理论上,若AI成本可以持续下降,上述行业的人工成本也可以无限趋近于零,这将是一次重要的降本增效革命。一旦成本结构转变,商业模式将迎来重构,身处于这些行业的企业有机会追求更高的价值,从以成本为中心向以利润为中心转型。

价值链的重塑体现在企业级服务,Voice Agent的价值在于它能直接切入业务核心。一个可靠的Voice Agent可以直接嵌入这些工作流,成为用户与SaaS系统交互的首要触点。协同内外部系统,Voice Agent可以将整个业务流程打穿,推动全链路效率革命。例如,在汽车试驾场景,用户说“想试驾新款SUV”,Agent立即匹配库存数据,若车型有现车则直接推荐最近门店,否则自动调整推荐其他车型或时间,整个过程无需人工介入。

生态和商业化

回到现实,Voice Agent市场发展仍在早期,还处于从技术验证期向企业级落地的转型阶段。尽管行业已经有了基建层向应用层过渡的趋势,但整体呈现出“倒金字塔式”竞争格局,上层垂直行业应用层企业众多,既有传统又有新玩家,最底层能够稳定向上输出技术能力的基建企业数量较少。

毫无疑问,MiniMax就是其中典型的“基建狂魔”。其Speech系列语音模型,不绑定特定行业场景,而是通过底层技术和工程优化,为B端厂商和开发者提供可复用的技术模块。通过开源模型和API服务,将音色模仿、语音生成等能力封装为标准化的工具,以降低企业接入门槛。技术能力向上下游延伸,与文本、视频、音乐等多模态能力形成协同效应。

语音领域始终是MiniMax的技术主场,早在行业初期就达成了多个“国内首个”成就。国内首个使用大模型语音技术开放多角色配音商用接口,首个开设语音模型海外API服务,以及首个与声网、腾讯和即构科技联合研发Realtime API实时交互服务方案。这导致一段时间内,客户对其语音模型的认可度一度超越了文本大模型。

得益于此,MiniMax目前进入了海内外客户语音模型选型的核心厂商名单,包括一些大厂。市场反馈尤为直观,很多人向我们反映,在同期产品中,MiniMax语音模型更具性价比。不少客户对MiniMax的小语种功能印象深刻,特别是粤语的表达,“标准到接近电视台播报水平”。

海外客户主要为开发者平台和AI语音代理基础设施提供商,以技术驱动和生态集成为导向,这些客户大多追求快速集成、高自定义性和全球部署能力。其中,MiniMax语音模型的超低延迟、情感语言控制和多语言优化等功能,成为被采纳的主要参考。目前海外最流行的两家Voice Agent开源平台,Livekit与Pipecat已接入MiniMax Speech TTS Model,展现了MiniMax在高性能语音代理生态中的适配性。

国内客户覆盖领域则更广阔,包括教育硬件、智能玩具等C端消费级产品,销售、搜索等B端行业解决方案以及通过开发者平台赋能技术型客户,以高自然度的语音技术,满足不同场景下更人性化、更高效的交互需求。

教育类客户中,爱小伴AI奶龙作为IP衍生玩具,利用MiniMax还原角色声线,支持故事讲述和情感互动,体现“寓教于陪”的定位;听力熊学习机基于自研TeeniGPT大模型,集成MiniMax语音能力进行自然对话,增强学生学习的互动体验。

面向C端的智能助手与硬件,MiniMax利用语音技术帮助企业提升用户体验,增强用户粘性,其客户涉及了荣耀、魅族、小米等硬件厂商。在B端销售领域,MiniMax与“Megaview AI助手”达成合作,语音生成与情感识别能力其提供底层支持,提高业务效率。

不难看出,除了技术升级外,MiniMax的语音模型已经进入了商业验证期。对比同行,MiniMax在B端业务的风格呈现出轻交付、重质量特点。通过标准化、模块化的API输出技术能力,降低合作伙伴的集成成本,优点是周期短和风险小,靠用户的正向反馈将带来后期稳定增长。这种模式使其能够快速扩大覆盖业务范围,但又能保持技术研发的聚焦性,这点对一家资源有限的创业公司极其重要。

短期内,Voice Agent市场还卡在技术环节。这意味着具备核心技术标准制定能力的企业将主导底层生态,而率先完成行业场景深度适配的解决方案商将赢得上层市场。

未来,语音交互可能成为企业数字化转型的标配接口,但真正的赢家将是那些能同时驾驭技术深度与场景广度的生态构建者。

举报

  • 相关推荐
  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

  • 蝉妈妈AI新品震撼发布:电商营销Agent时代来临,6万+从业者共寻增长新引擎

    2025年电商竞争核心转向AI效率。蝉妈妈于10月23日发布电商专属AI工具,旨在解决传统运营痛点。该工具覆盖全链路场景:从行业分析、竞对数据到图文创作、视频脚本生成,帮助从业者实现策略制定到落地执行的一站式智能运营。发布会集结多位实战专家,分享全域增长、内容提效等可复用的方法论,吸引超6万观众。蝉妈妈凭借行业数据沉淀与AI技术结合,为电商从业者提供突破增长瓶颈的系统路径,推动行业迈向技术驱动的高效新纪元。

  • 苹果iPad mini将支持防水:看齐iPhone

    苹果正研发新一代防水iPad mini,采用无扬声器开孔设计降低进水风险,防水性能接近iPhone。与iPhone采用粘合剂密封不同,iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证,而新款预计2026年上市,可能搭载OLED屏幕并涨价约100美元(现起售价499美元)。

  • 墨刀AI Agent:更懂产品经理的超级智能体上线

    2025年AI将进入"智能体时代",从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造,具备三层核心能力:懂逻辑(理解需求生成原型)、懂场景(熟悉全流程工作)、懂协作(跨角色沟通优化)。它能贯穿调研、原型、文档、评审等环节,解放重复劳动,让产品经理专注高价值决策,实现从效率提升到决策升级的人机协作新模式。

  • 华为MatePad Mini典藏版今日开售:售价5999元起

    10月27日,华为MatePad Mini典藏版正式开售,起售价5999元。作为华为首款8.8英寸小尺寸平板,该机在性能与功能上实现全面突破,堪称史上最强小平板。配备8.8英寸柔性OLED云晰柔光屏,支持P3广色域、1800nits峰值亮度及120Hz高刷,显示效果出色。通讯方面支持插卡通话、Wi-Fi7及北斗卫星消息,确保户外畅联。搭配M-Pencil Pro手写笔与智能皮套,支持专业绘画及会议语音实时转写功能,办公创作体验全面升级。

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

今日大家都在搜的词: