国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

2025-05-16 09:11 · 来源： AIbase基地

在人工智能领域的快速发展中，国产大模型的进步速度让人惊叹。早在今年初，DeepSeek-R1以超低成本获得了超越 OpenAI 的表现，令人重新审视国外大模型的垄断地位。如今，MiniMax 再次带来了重磅消息:其全新一代文本转语音（TTS）模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶，击败了 OpenAI 和 ElevenLabs 等行业巨头。

Speech-02的出色表现体现在多个关键指标上，例如字错率（WER）和说话人相似度(SIM)，均取得了新的最佳结果(SOTA)，令国外网友感到震惊，纷纷称赞 MiniMax 为音频领域的破局者。更令人惊喜的是，Speech-02的成本仅为 ElevenLabs 竞争产品的四分之一，展现了其高性价比的优势。

那么，Speech-02为何能够取得如此骄人的成绩呢?背后有两项关键技术创新。一方面，Speech-02实现了真正的零样本（zero-shot）语音克隆。这意味着只需给定一段参考语音，无需额外文本，模型就能迅速生成与目标语音高度相似的音频。这项技术显著节省了时间和资源，以往的合成方法通常需要大量样本数据。

另一方面，MiniMax 采用了全新的 Flow-VAE 架构，这种架构提升了语音生成过程中的信息表征能力，进而改善了合成音频的质量和相似度。通过引入一个可学习的 speaker 编码器，Speech-02能专注于说话者独特的发音特点，无论是音色、语调还是节奏，均能精准再现，避免了传统合成语音的生硬感。

此外，MiniMax 还引入了 T2V 框架，将开放式自然语言描述与结构化标签信息相结合，进一步提升了语音合成的灵活性和可控性。这意味着，用户不仅可以提供参考音频，还可以通过简单的描述来生成所需音色的语音，从而极大地增强了系统的多功能性。

Speech-02的成功再次印证了国产大模型在语音合成领域的强大实力，并向世界展示了中国在人工智能技术上的快速崛起。

技术文档：https://minimax-ai.github.io/tts_tech_report/

相关推荐

荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型，苹果已在iPad Pro中采用OLED屏，并计划在未来数月及数年内将OLED推广到更多设备上，从而淘汰LCD屏幕。具体来看，iPad mini最快会在2026年配备OLED屏，同时会提升防水性能，新款iPad mini也因此涨价100美元。至于iPad Air，其商用OLED的时间要晚于iPad mini，爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕，但后续

OLED显示屏 iPad mini
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能
迈入“巨作时代”，小游戏彻底杀疯了

小而不凡，成为小游戏的真实写照。以小游戏为抓手的世纪华通，上演了一年涨6倍的好戏，不但成为资本市场的超级明星，也一跃成为头部游戏厂商。与之对应的是，腾讯、网易、B站等纷纷将旗下的拳头产品进行小游戏化，即便是被誉为“国民游戏”的《王者荣耀》也未例外，近期开启小游戏端的限量灰度测试。不难看出，小游戏赛道正在成为游戏巨作的“乐园”。

小游戏世纪华通游戏厂商

今日大家都在搜的词：

热文

3 天
7天

国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

荐MiniMax让AI语音有了新基建

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

iPad mini 8外观巨变：去掉扬声器开孔

未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

苹果iPad mini将支持防水：看齐iPhone

迈入“巨作时代”，小游戏彻底杀疯了

今日大家都在搜的词：

热文

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iQOO 15旷野配色今日开售：售价4999元首发2K三星珠峰屏

vivo WATCH GT 2已支持开通移动/联通eSIM服务

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

鸿蒙智行：全新问界M7上市36天交付破20000台

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

站长商机