快科技4月24日报道,今天,小米正式推出了MiMo-V2.5语音模型,包含MiMo-V2.5-TTS系列和MiMo-V2.5-ASR两大产品线。
这一系列模型专为Agent时代设计,覆盖语音识别与语音合成两大关键功能,实现了语音输入和输出的灵活调控。
在语音合成方面,MiMo-V2.5-TTS系列提供了三款模型,分别针对不同的创作需求:
首先是MiMo-V2.5-TTS,内置多种高品质音色,经过专业优化,发音自然且富有情感,支持对语速、情绪、语气等参数进行精细调整,用户可直接使用,满足多样化的表达场景。

其次是MiMo-V2.5-TTS-VoiceDesign,用户只需用一句自然语言描述,即可创造全新的音色,无需提供任何参考音频。
用户可以从年龄、性别、口音、音质甚至性格气质等多个维度自由定义,比如“声音低沉略带沙哑的老年学者”或“活力满满的少女”,模型便能自动生成对应的声音形象。
凭借大规模预训练能力,该模型能够准确理解复杂、模糊甚至相互矛盾的描述,而不仅限于男、女、青年、老年等简单分类。
第三是MiMo-V2.5-TTS-VoiceClone,主打音色克隆功能,用户仅需提供几秒钟的参考音频,无需额外训练或微调,即可复制真人播客、配音演员、品牌代言人,甚至是用户自己的声音。
复刻后的声音不仅保留了原说话人的音色特征,还涵盖了气息、节奏、习惯性停顿等个人细节。
同时,克隆出的音色还可以叠加自然语言指令、音频标签或导演级脚本,进一步提升语音创作的灵活性。
作为全链路语音模型系列的听觉基础,MiMo-V2.5-ASR在中英双语、中文方言、语种混合、强噪声环境、多说话人场景以及高知识密度内容等复杂真实条件下,均达到了行业领先水平。


目前,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign以及MiMo-V2.5-TTS-VoiceClone已在Xiaomi MiMo API开放平台限时免费开放使用。

(举报)
