首页 > 业界 > 关键词  > AI语音生成最新资讯  > 正文

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

2025-05-16 13:52 · 稿源: 量子位公众号

声明:本文来自于微信公众号 量子位,作者:明敏,授权站长之家转载发布。

超越OpenAI!

国产大模型突袭,AI语音生成天花板被重新定义了。

MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech ArenaHugging Face TTS Arena两项全球权威语音基准测评第一!

而且还是榜单前十名中唯一的国产玩家。

要知道,这俩榜首长期被OpenAI、ElevenLabs占据,前者不用多介绍,公认的AI领域全球NO.1梯队成员,后者也是专精AI语音合成赛道的领军玩家。

图片

具体效果如何?一手实测在此:

用专业播音腔读一读量子位的文章?So easy~

直接根据文章内容配上相应的语气和情绪,中英混杂轻松搞定,各种停顿和重音,完全就是顶级新闻播报员的感觉。

播音腔朗读文章,量子位,1分钟

还能让霉霉为我们读论文。不仅是熟悉的美音,而且非常还原她个人特点。

霉霉读论文,量子位,22秒

如上效果,只需几秒语音参考,即可让大模型当场完成超逼真复刻。

并且在提供SOTA级性能同时,定价仅为ElevenLabs的一半甚至四分之一,性价比也称得上“全球SOTA”了。

图片

如此能力,不少人其实不知不觉体验到了。

比如前段时间大火的吴彦祖陪你学英语中的“AI阿祖”,底层能力正是来自MiniMax。

还有个人开发者打造的出圈案例——故宫AI向导,正是基于MiniMax MCP Server,支持通过简单文本输入,完成图像、语音、视频生成以及声音克隆等多项能力。其中语音生成与克隆的能力,就是靠MiniMax Speech模型完成。

图片

果然,MiniMax还是一如既往闷声搞大事啊。

那么借着这次语音模型重磅更新,来扒一扒MiniMax是如何发起突袭的。

全球首个实现多样化、个性定义的语音模型

总结来看,Speech-02兼顾了三方面亮点:

  • 超拟人

  • 个性化

  • 多样性

首先,在最关键的“超拟人”方面,Speech-02的还原度不说是100%,也几乎是天衣无缝了。

比如这段脱口秀,无论是中文咬字还是英文发音,都非常完美。同时还带有自然的情绪起伏、停顿和重音,给人以更丰富的听觉感受。

其次在个性化方面,Speech-02现在已经提供了丰富音色可供选择。

细分维度包括语言、口音、性别和年龄。目前已经支持32种语言。中英文这样常用的选项里,还包含不同的口音。

图片

同时,它也支持对任意音色进行复刻。

由于不局限于只学习精品音色,它具备极强泛化能力,最少只需听10秒参考样本,即可完成对一种说话人声音的模仿。而且还支持对音色进行进一步细节调整。

声音参考这一功能为例(这一功能在国内仅对B端用户开放),只需提供10-300秒声音参考样本,Speech-02就可以开始完成复刻。上传文件or直接录音都可以。也就是说,对着模型说几句话,它就已经能学会你的音色了。

图片

它支持自动剔除背景噪音,对上传音频的质量要求不高。

比如生成霉霉音色时,我们使用了她在纽约大学演讲的片段,其中包含了掌声、欢呼声等噪音影响,但是对生成结果的影响很小。

此外还支持情绪等更细微的调整,能满足专业领域人士的需求。

最后,在多样性方面,Speech-02可以支持32种语言。

不仅支持不同语言之间无缝切换,而且在音色生成时就可以完成语种跨越。比如喂给它霉霉英文语音素材,让它生成中文版音色。

生成的语音也支持多语言之间无缝切换,如下是英语、西班牙语之间切换。

由此几方面优势结合,用Speech-02完成电影级配音,也不是问题了。

从数据维度看,Speech-02的表现也是全方位碾压。

通过词错误率(WER)和说话者相似度(SIM)两个维度,在Seed-TTS Test数据集上,Speech-02在零样本克隆中实现了更低词错误率,one-shot下SIM得分与真实音频(Ground Truth)相当,表明模型能够有效提取和保留说话者音色特色。

图片

在多语言评估上,Speech-02在包含24种语言的测试集上,它的WER表现与ElevenLabs Multilingual v2相当,在中文、粤语、泰语、越南语和日语等复杂语言中表现更好,甚至在英语上也完成了对ElevenLabs的全线超越

在SIM方面,MiniMax-Speech在所有测试语言中均优于ElevenLabs Multilingual v2,表明其说话者编码器和合成流程在保留说话者身份方面更为有效。

图片

A语音音频直接克隆至B语言语音,MiniMax-Speech的zero-shot在所有测试语言中都实现了更低WER,发音准确度最高

图片

创新性提出Flow-VAE,更好把握克隆细节

所以,Speech-02为啥这么强?

还得看技术细节。目前Speech-02论文已全面公开,还被很多海外AI博主关注到了。

图片

图片

从技术维度,Speech-02实现了只需极少样本、甚至在没有训练数据的情况下,仅通过参考音频,就能生成与目标说话人极为相似的音色,并且可以转换成多种语种。

图片

具体而言,它使用了基于自回归Transformer的架构

大多数自回归TTS在语音克隆中需要语音和对应文字转录作为提示。提示语音和目标语音在语义或语言上存在不匹配、解码长度限制等问题,往往会造成生成质量欠佳。

为此,Speech-02引入了独特的可学习说话者编码器(Learnable Speaker Encoder),直接与TTS模型一起训练。输入仅为一段参考音频,输出为一个固定大小的“声音特征向量”。

核心解决了三方面问题:

1、无需参考文本即可通过语音提示实现零样本语音克隆;

2、跨语言语音生成,它只关注声音的特征而不关心语音内容,因此即使参考音频是英文,但是也可以使用该音色直接生成其他语言的语音;

3、根据生成任务实际需求,提取出对音质和相似度更有用的特征

图片

模型另一个重要创新在于引入了基于Flow-VAE的流匹配模型,进一步提升了生成语音的音质和说话人相似性。

VAE(Variational Autoencoder)用来学习语音的潜在特征表示(比如音色、韵律、情感等),它通常假设潜在空间服从标准正态分布,这可能会限制模型对复杂数据分布的建模能力。

由此引入Flow模型,通过一系列可逆转换,将潜在空间映射到更复杂的分布,从而更准确地捕捉数据中的复杂结构和分布特性。

图片

此外,研究团队还探索了模型的多种下游应用。比如通过LoRA实现对合成语音情感更精细控制、文本驱动音色生成以及专业语音克隆(通过微调参数为特定说话人生成更高保真度语音)。

为行业造AI语音引擎

不过,技术上领先还只是其一,在AI语音行业落地上,MiniMax也已悄悄领先。

落地案例多元、跨行业、全球化。与不同行业玩家共同开拓AI语音的应用前景。具体包括:

  • 成熟场景:教育、有声书等

  • 新鲜场景:AI伴读、智能硬件、汽车智能座舱、3A游戏实时交互等

比如在教育领域,MiniMax与高途共同探索出了24小时可定制化的AI语言陪练系统。

最近全网爆火的“吴彦祖教你学口语”中的“AI阿祖”,就是基于此实现,通过对吴彦祖音色精品复刻,在高途推出的吴彦祖英语课中,AI阿祖可以24小时随时在线陪练。

在智能座舱方面,MiniMax多个大模型已入驻极狐汽车,为用户提供即时问答服务。

值得一提的是,作为大模型技术厂商,MiniMax还一直与不同行业玩家共创,开拓AI应用边界、激发场景创新。

在一些前沿落地场景里,总能看到MiniMax。

比如大模型趋势下爆火的AI玩具领域,MiniMax为热度top1的跃然创新haivivi提供底层语音合成和文本模型能力。支持BubblePal能够随时灵活回答小朋友们的“十万个为什么”。

基于MiniMax语音能力的「AI语音挂件」(售价399-449元),上线2个月销量突破2万台。

AI教育硬件方面,MiniMax为听力熊团队提供底层模型支持,专为青少年解决学习、生活中的各种问题,不局限于问题回答,还可以进行适当的反馈和情感表达,兼顾教育与陪伴场景。听力熊AI听说学习机T6已接入。

更为新鲜的,MiniMax与香港电视台尝试了使用语音模型的粤语能力做天气预报,进一步开拓落地场景。

在海外也与Hedra合作,打造了可以定制化的数字角色分身。

可以明显感知到,MiniMax不仅在商业价值已得到初步验证的领域积极落地,也重点关注了AI语音在更多新场景的应用,推动技术创新同时更为行业带来新价值。

可以感知到,与MiniMax达成合作的行业玩家中,不乏领域内领军者,更有很多来自新兴赛道。前者的落地价值已经初步被验证,后者则蕴藏着巨大潜力。

Always MiniMax,Why?

所以,为啥它们不约而同选择MiniMax?

技术领先性是最首要的。MiniMax是AI领域头部玩家,在大模型技术浪潮之前,已经抢先布局自研多个模态的基础模型,覆盖文本、语音、视觉三大领域。

显然在AI语音领域,MiniMax长线布局,而且一直走在行业前沿。

而且,MiniMax还有天然的技术试炼场——星野、Talkie等。这意味着,MiniMax更懂实际落地、更懂如何将实验室中的前沿技术输送到用户面前。所以,MiniMax也是国内最早用大模型架构提供语音服务的公司。

这或许也是为何MiniMax始终低调,但又一直被行业青睐。

而透过这次动作,MiniMax的布局战略,也呈现出更清晰的全貌——

布局全模态,且纷纷拿下SOTA。

以最初的三大基础模型为起点,MiniMax在短短2年时间内已经完成了对全模态能力的完整布局。

文本方面,MiniMax打破了传统Transformer架构限制,首次大规模实现了线性注意力机制,这种架构创新极大地提升了模型的计算效率,降低了成本,尤其在处理超长文本场景中,展现出显著的可扩展性。这也是对Agent时代进行抢先押注,从中也足见MiniMax领先于行业的技术。

就在年初,MiniMax还完成了MiniMax-01系列开源,包含两个模型,基础语言大模型 MiniMax-Text-01和视觉多模态大模型 MiniMax-VL-01,为开源社区提供优质选择。

语音方面,随着Speech-02发布,MiniMax在AI语音领域的领先地位更加不可动摇。

视频方面,海螺AI已经是全球最大的生成式AI视频平台,它为用户提供了高度自由的创作控制能力,用户可以通过简单的输入(如一张图片或一段文字)生成视频,并且能够像专业导演一样自由掌控镜头语言。

如今,大模型趋势来到应用落地侧,MiniMax依旧坚持原始性创新,不断刷新领域内新纪录。

底层技术是AI厂商的源头优势,是长期估值的压舱石,也是唯一不可被快速复制的壁垒。

而在落地方面,MiniMax低调推进,与不同行业合作。一些AI落地爆款背后,总能看到MiniMax的身影。这既是技术领先的进一步验证,也是其落地能力的直接证明。

可以看到,随着大模型发展驶入“深水区”,更关键在于,谁能构建起“模型即产品”机制,不断将AI技术从一线实验室向千行百业输送。

在这之中,布局全、壁垒深、落地广的玩家,更值得被关注。

MiniMax已经为行业打了个样,不是吗?

举报

  • 相关推荐
  • 微信,OpenAI和Kimi想一起去了:大模型的尽头依然还是社交平台

    AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,据称正内部测试类X的社交功能,其CEO Sam Altman甚至在私下征求反馈;而在国内,凭借长文本能力

  • 用户对离谱回答不满激增,OpenAI回应:将持续公开AI模型性评估

    OpenAI于5月14日上线"安全评估中心"网页,公开其AI模型在有害内容生成、越狱行为和幻觉等方面的安全测试结果。此举旨在回应外界对其模型透明度的质疑,此前GPT-4o更新因不当赞美引发争议,导致全面撤回。该平台将定期更新数据,CEO奥特曼也承认存在问题并承诺改进。通过公开安全指标,OpenAI希望提升行业透明度,重建用户信任。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • 国产六大推理模型激战OpenAI

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

    快科技5月14日消息,华中科技大学宣布,全球首个女性肿瘤AI大模型木兰”,正式进入临床应用阶段。目前,公众可通过华中科技大学同济医院”公众号或掌上同济”APP,在互联网医院下的同济木兰AI咨询”栏目中获得免费服务。未来,该模型还将通过更多手机端线上平台、电脑端应用以及各级医疗机构等多种渠道,向公众开放。据介绍,木兰”由华中科技大学同济医学院附属同济医院主导研发,该模型以国内外权威的女性肿瘤医疗指南和高质量专家共识为基础,融合了同济医院近20年来的高质量病例数据。还整合了中国工程院院士、同济医院妇产科学系主任

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • AI实力排名洗牌:OpenAI、谷歌崛起,Anthropic下滑

    人工智能的格局正以前所未有的速度演变,但超越标准化基准或排行榜平台,了解需求和使用模式 仍然是一个挑战……

  • Antropic加入“AI语音助手”赛道,能追上OpenAI、谷歌们吗?

    随着 AI 语音产品的出现,人们对其模仿他人说话风格的担忧也在加剧……

  • 长安马自达EZ-60全球首秀,接入豆包大模型

    4月23日,长安马自达EZ-60在2025上海国际车展全球首发。作为品牌新能源战略转型产品,该车在美学设计、AI智能座舱、电感驾控及主被动安全性能等方面实现突破。最大亮点是全面接入豆包大模型,用户可通过语音指令实现复杂操作、互联网信息问答及短视频搜索等功能,打造"人-车-环境"跨模态交互体验。专属AI助手支持超700项功能语音调用,实现"所说即所得"的智能交互。长安马自达与火山引擎达成深度合作,将持续推进大模型在智能座舱领域的创新应用。