超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

2025-05-16 13:52 · 稿源：量子位公众号

声明：本文来自于微信公众号量子位，作者：明敏，授权站长之家转载发布。

超越OpenAI!

国产大模型突袭，AI语音生成天花板被重新定义了。

MiniMax最新发布Speech-02，同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

而且还是榜单前十名中唯一的国产玩家。

要知道，这俩榜首长期被OpenAI、ElevenLabs占据，前者不用多介绍，公认的AI领域全球NO.1梯队成员，后者也是专精AI语音合成赛道的领军玩家。

具体效果如何?一手实测在此:

用专业播音腔读一读量子位的文章?So easy~

直接根据文章内容配上相应的语气和情绪，中英混杂轻松搞定，各种停顿和重音，完全就是顶级新闻播报员的感觉。

播音腔朗读文章，量子位，1分钟

还能让霉霉为我们读论文。不仅是熟悉的美音，而且非常还原她个人特点。

霉霉读论文，量子位，22秒

如上效果，只需几秒语音参考，即可让大模型当场完成超逼真复刻。

并且在提供SOTA级性能同时，定价仅为ElevenLabs的一半甚至四分之一，性价比也称得上“全球SOTA”了。

如此能力，不少人其实不知不觉体验到了。

比如前段时间大火的吴彦祖陪你学英语中的“AI阿祖”，底层能力正是来自MiniMax。

还有个人开发者打造的出圈案例——故宫AI向导，正是基于MiniMax MCP Server，支持通过简单文本输入，完成图像、语音、视频生成以及声音克隆等多项能力。其中语音生成与克隆的能力，就是靠MiniMax Speech模型完成。

果然，MiniMax还是一如既往闷声搞大事啊。

那么借着这次语音模型重磅更新，来扒一扒MiniMax是如何发起突袭的。

全球首个实现多样化、个性定义的语音模型

总结来看，Speech-02兼顾了三方面亮点:

超拟人
个性化
多样性

首先，在最关键的“超拟人”方面，Speech-02的还原度不说是100%，也几乎是天衣无缝了。

比如这段脱口秀，无论是中文咬字还是英文发音，都非常完美。同时还带有自然的情绪起伏、停顿和重音，给人以更丰富的听觉感受。

其次在个性化方面，Speech-02现在已经提供了丰富音色可供选择。

细分维度包括语言、口音、性别和年龄。目前已经支持32种语言。中英文这样常用的选项里，还包含不同的口音。

同时，它也支持对任意音色进行复刻。

由于不局限于只学习精品音色，它具备极强泛化能力，最少只需听10秒参考样本，即可完成对一种说话人声音的模仿。而且还支持对音色进行进一步细节调整。

以声音参考这一功能为例（这一功能在国内仅对B端用户开放），只需提供10-300秒声音参考样本，Speech-02就可以开始完成复刻。上传文件or直接录音都可以。也就是说，对着模型说几句话，它就已经能学会你的音色了。

它支持自动剔除背景噪音，对上传音频的质量要求不高。

比如生成霉霉音色时，我们使用了她在纽约大学演讲的片段，其中包含了掌声、欢呼声等噪音影响，但是对生成结果的影响很小。

此外还支持情绪等更细微的调整，能满足专业领域人士的需求。

最后，在多样性方面，Speech-02可以支持32种语言。

不仅支持不同语言之间无缝切换，而且在音色生成时就可以完成语种跨越。比如喂给它霉霉英文语音素材，让它生成中文版音色。

生成的语音也支持多语言之间无缝切换，如下是英语、西班牙语之间切换。

由此几方面优势结合，用Speech-02完成电影级配音，也不是问题了。

从数据维度看，Speech-02的表现也是全方位碾压。

通过词错误率（WER）和说话者相似度（SIM）两个维度，在Seed-TTS Test数据集上，Speech-02在零样本克隆中实现了更低词错误率，one-shot下SIM得分与真实音频(Ground Truth)相当，表明模型能够有效提取和保留说话者音色特色。

在多语言评估上，Speech-02在包含24种语言的测试集上，它的WER表现与ElevenLabs Multilingual v2相当，在中文、粤语、泰语、越南语和日语等复杂语言中表现更好，甚至在英语上也完成了对ElevenLabs的全线超越。

在SIM方面，MiniMax-Speech在所有测试语言中均优于ElevenLabs Multilingual v2，表明其说话者编码器和合成流程在保留说话者身份方面更为有效。

A语音音频直接克隆至B语言语音，MiniMax-Speech的zero-shot在所有测试语言中都实现了更低WER，发音准确度最高。

创新性提出Flow-VAE，更好把握克隆细节

所以，Speech-02为啥这么强?

还得看技术细节。目前Speech-02论文已全面公开，还被很多海外AI博主关注到了。

从技术维度，Speech-02实现了只需极少样本、甚至在没有训练数据的情况下，仅通过参考音频，就能生成与目标说话人极为相似的音色，并且可以转换成多种语种。

具体而言，它使用了基于自回归Transformer的架构。

大多数自回归TTS在语音克隆中需要语音和对应文字转录作为提示。提示语音和目标语音在语义或语言上存在不匹配、解码长度限制等问题，往往会造成生成质量欠佳。

为此，Speech-02引入了独特的可学习说话者编码器（Learnable Speaker Encoder），直接与TTS模型一起训练。输入仅为一段参考音频，输出为一个固定大小的“声音特征向量”。

核心解决了三方面问题:

1、无需参考文本即可通过语音提示实现零样本语音克隆;

2、跨语言语音生成，它只关注声音的特征而不关心语音内容，因此即使参考音频是英文，但是也可以使用该音色直接生成其他语言的语音;

3、根据生成任务实际需求，提取出对音质和相似度更有用的特征。

模型另一个重要创新在于引入了基于Flow-VAE的流匹配模型，进一步提升了生成语音的音质和说话人相似性。

VAE（Variational Autoencoder）用来学习语音的潜在特征表示(比如音色、韵律、情感等)，它通常假设潜在空间服从标准正态分布，这可能会限制模型对复杂数据分布的建模能力。

由此引入Flow模型，通过一系列可逆转换，将潜在空间映射到更复杂的分布，从而更准确地捕捉数据中的复杂结构和分布特性。

此外，研究团队还探索了模型的多种下游应用。比如通过LoRA实现对合成语音情感更精细控制、文本驱动音色生成以及专业语音克隆（通过微调参数为特定说话人生成更高保真度语音）。

为行业造AI语音引擎

不过，技术上领先还只是其一，在AI语音行业落地上，MiniMax也已悄悄领先。

落地案例多元、跨行业、全球化。与不同行业玩家共同开拓AI语音的应用前景。具体包括:

成熟场景:教育、有声书等
新鲜场景:AI伴读、智能硬件、汽车智能座舱、3A游戏实时交互等

比如在教育领域，MiniMax与高途共同探索出了24小时可定制化的AI语言陪练系统。

最近全网爆火的“吴彦祖教你学口语”中的“AI阿祖”，就是基于此实现，通过对吴彦祖音色精品复刻，在高途推出的吴彦祖英语课中，AI阿祖可以24小时随时在线陪练。

在智能座舱方面，MiniMax多个大模型已入驻极狐汽车，为用户提供即时问答服务。

值得一提的是，作为大模型技术厂商，MiniMax还一直与不同行业玩家共创，开拓AI应用边界、激发场景创新。

在一些前沿落地场景里，总能看到MiniMax。

比如大模型趋势下爆火的AI玩具领域，MiniMax为热度top1的跃然创新haivivi提供底层语音合成和文本模型能力。支持BubblePal能够随时灵活回答小朋友们的“十万个为什么”。

基于MiniMax语音能力的「AI语音挂件」（售价399-449元），上线2个月销量突破2万台。

AI教育硬件方面，MiniMax为听力熊团队提供底层模型支持，专为青少年解决学习、生活中的各种问题，不局限于问题回答，还可以进行适当的反馈和情感表达，兼顾教育与陪伴场景。听力熊AI听说学习机T6已接入。

更为新鲜的，MiniMax与香港电视台尝试了使用语音模型的粤语能力做天气预报，进一步开拓落地场景。

在海外也与Hedra合作，打造了可以定制化的数字角色分身。

可以明显感知到，MiniMax不仅在商业价值已得到初步验证的领域积极落地，也重点关注了AI语音在更多新场景的应用，推动技术创新同时更为行业带来新价值。

可以感知到，与MiniMax达成合作的行业玩家中，不乏领域内领军者，更有很多来自新兴赛道。前者的落地价值已经初步被验证，后者则蕴藏着巨大潜力。

Always MiniMax，Why?

所以，为啥它们不约而同选择MiniMax?

技术领先性是最首要的。MiniMax是AI领域头部玩家，在大模型技术浪潮之前，已经抢先布局自研多个模态的基础模型，覆盖文本、语音、视觉三大领域。

显然在AI语音领域，MiniMax长线布局，而且一直走在行业前沿。

而且，MiniMax还有天然的技术试炼场——星野、Talkie等。这意味着，MiniMax更懂实际落地、更懂如何将实验室中的前沿技术输送到用户面前。所以，MiniMax也是国内最早用大模型架构提供语音服务的公司。

这或许也是为何MiniMax始终低调，但又一直被行业青睐。

而透过这次动作，MiniMax的布局战略，也呈现出更清晰的全貌——

布局全模态，且纷纷拿下SOTA。

以最初的三大基础模型为起点，MiniMax在短短2年时间内已经完成了对全模态能力的完整布局。

文本方面，MiniMax打破了传统Transformer架构限制，首次大规模实现了线性注意力机制，这种架构创新极大地提升了模型的计算效率，降低了成本，尤其在处理超长文本场景中，展现出显著的可扩展性。这也是对Agent时代进行抢先押注，从中也足见MiniMax领先于行业的技术。

就在年初，MiniMax还完成了MiniMax-01系列开源，包含两个模型，基础语言大模型 MiniMax-Text-01和视觉多模态大模型 MiniMax-VL-01，为开源社区提供优质选择。

语音方面，随着Speech-02发布，MiniMax在AI语音领域的领先地位更加不可动摇。

视频方面，海螺AI已经是全球最大的生成式AI视频平台，它为用户提供了高度自由的创作控制能力，用户可以通过简单的输入（如一张图片或一段文字）生成视频，并且能够像专业导演一样自由掌控镜头语言。

如今，大模型趋势来到应用落地侧，MiniMax依旧坚持原始性创新，不断刷新领域内新纪录。

底层技术是AI厂商的源头优势，是长期估值的压舱石，也是唯一不可被快速复制的壁垒。

而在落地方面，MiniMax低调推进，与不同行业合作。一些AI落地爆款背后，总能看到MiniMax的身影。这既是技术领先的进一步验证，也是其落地能力的直接证明。

可以看到，随着大模型发展驶入“深水区”，更关键在于，谁能构建起“模型即产品”机制，不断将AI技术从一线实验室向千行百业输送。

在这之中，布局全、壁垒深、落地广的玩家，更值得被关注。

MiniMax已经为行业打了个样，不是吗?

（举报）

相关推荐

关键词：

荐微信，OpenAI和Kimi想一起去了：大模型的尽头依然还是社交平台

AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时，一些代表着未来的AI巨头，却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性，在大洋彼岸，手握ChatGPT和Sora等王牌的OpenAI，据称正内部测试类X的社交功能，其CEO Sam Altman甚至在私下征求反馈；而在国内，凭借长文本能力

AI社交网络语言模型 OpenAI动态
用户对离谱回答不满激增，OpenAI回应：将持续公开AI模型安全性评估

OpenAI于5月14日上线"安全评估中心"网页，公开其AI模型在有害内容生成、越狱行为和幻觉等方面的安全测试结果。此举旨在回应外界对其模型透明度的质疑，此前GPT-4o更新因不当赞美引发争议，导致全面撤回。该平台将定期更新数据，CEO奥特曼也承认存在问题并承诺改进。通过公开安全指标，OpenAI希望提升行业透明度，重建用户信任。

ChatGPT ChatGPT入口 ChatGPT官网
荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

【AI日报】汇总了近期AI领域重要动态：1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首，在指令遵循和推理能力上超越闭源模型；2)月之暗面推出Kimi长思考模型API，可解决复杂代码和数学问题；3)OpenAI发布GPT-4.1模型，性能提升显著；4)Google推出Gemini2.5Pro模型，提升开发者编码能力；5)联想发布"天禧超级智能体"，具备多模态感知能力；6)腾讯元宝上线"对话分

AI日报通义千问3 开源模型
荐国产六大推理模型激战OpenAI？

2025年春节前夕，DeepSeek-R1模型发布，标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程：从2022年ChatGPT引发国内追赶OpenAI热潮，到2023年"百模大战"，再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型（DeepSeek、百度、阿里、科大讯飞、字节、腾讯）的技术特点与市场表现，指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐，以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下，国产全栈技术路径的重要性，认为自主可控将成为对抗国际不确定性的关键。最后指出，随着推理模型成为竞争焦点，国产大模型正从技术追随转向自主创新阶段。

AI技术 DeepSeek-R1 云服务器
全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

快科技5月14日消息，华中科技大学宣布，全球首个女性肿瘤AI大模型木兰”，正式进入临床应用阶段。目前，公众可通过华中科技大学同济医院”公众号或掌上同济”APP，在互联网医院下的同济木兰AI咨询”栏目中获得免费服务。未来，该模型还将通过更多手机端线上平台、电脑端应用以及各级医疗机构等多种渠道，向公众开放。据介绍，木兰”由华中科技大学同济医学院附属同济医院主导研发，该模型以国内外权威的女性肿瘤医疗指南和高质量专家共识为基础，融合了同济医院近20年来的高质量病例数据。还整合了中国工程院院士、同济医院妇产科学系主任

女性肿瘤 AI大模型临床应用
AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

【AI日报】栏目聚焦人工智能领域最新动态：1) OpenAI推出ChatGPT图像生成API，开发者可轻松集成AI绘图功能，已生成超7亿张图片；2) 谷歌Gemini月活用户突破3.5亿，但仍落后于ChatGPT的6亿用户；3) OpenAI预测2029年收入将达1250亿美元，AI代理业务成主要增长点；4) Ostris发布8B参数扩散模型Flex.2-preview，优化ComfyUI工作流；5) 英伟达推出多模态LLM模型Describe Anything，支持指定区域生成详细描�

OpenAI ChatGPT 图像生成
持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

快手旗下可灵AI 2.0模型在权威AI评测中表现优异，以1124分超越自研1.6版本，连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示，自2023年6月上线以来，可灵AI全球用户突破2200万，月活激增25倍，累计生成视频1.68亿个、图片3.44亿张。商业化方面，其单月流水已超千万元，并与伊利、vivo等头部品牌达成深度合作，展现出AI视频生成技术的广阔商业前景。
AI实力排名洗牌：OpenAI、谷歌崛起，Anthropic下滑

人工智能的格局正以前所未有的速度演变，但超越标准化基准或排行榜平台，了解需求和使用模式仍然是一个挑战……

AI大模型 AI聊天机器人生成式AI
Antropic加入“AI语音助手”赛道，能追上OpenAI、谷歌们吗？

随着 AI 语音产品的出现，人们对其模仿他人说话风格的担忧也在加剧……

Anthropic AI语音助手 Claude
长安马自达EZ-60全球首秀，接入豆包大模型

4月23日，长安马自达EZ-60在2025上海国际车展全球首发。作为品牌新能源战略转型产品，该车在美学设计、AI智能座舱、电感驾控及主被动安全性能等方面实现突破。最大亮点是全面接入豆包大模型，用户可通过语音指令实现复杂操作、互联网信息问答及短视频搜索等功能，打造"人-车-环境"跨模态交互体验。专属AI助手支持超700项功能语音调用，实现"所说即所得"的智能交互。长安马自达与火山引擎达成深度合作，将持续推进大模型在智能座舱领域的创新应用。

长安马自达 MAZDA EZ-60

热文

3 天
7天

超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

全球首个实现多样化、个性定义的语音模型

创新性提出Flow-VAE，更好把握克隆细节

为行业造AI语音引擎

Always MiniMax，Why?

荐微信，OpenAI和Kimi想一起去了：大模型的尽头依然还是社交平台

用户对离谱回答不满激增，OpenAI回应：将持续公开AI模型安全性评估

荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

荐国产六大推理模型激战OpenAI？

全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

持续霸榜！可灵2.0模型登顶全球视频生成大模型榜单

AI实力排名洗牌：OpenAI、谷歌崛起，Anthropic下滑

Antropic加入“AI语音助手”赛道，能追上OpenAI、谷歌们吗？

长安马自达EZ-60全球首秀，接入豆包大模型

热文

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

苹果 AI 太落伍？他们需要从对手那里“复制”这三个功能

报告显示：苹果仍是全球最有价值的品牌！

谷歌刚修复了一个高危 Chrome 漏洞，可被用于劫持账户

Anthropic 的律师因 Claude 编造法律引文被迫道歉

Noyb指控Meta再次违反GDPR，或面临2000亿欧元赔偿

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

四年来，软银集团首次实现年度盈利，重振投资者信心

42岁程序员因AI被裁，失业一年，现蜗居房车，靠跑腿维生

日产 N7 电动车在中国创下新纪录，18 天订单突破 1 万台

站长商机