首页 > 业界 > 关键词  > 小米语音模型最新资讯  > 正文

小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

2026-04-24 09:28 · 稿源: 快科技

快科技4月24日报道,今天,小米正式推出了MiMo-V2.5语音模型,包含MiMo-V2.5-TTS系列和MiMo-V2.5-ASR两大产品线。

这一系列模型专为Agent时代设计,覆盖语音识别语音合成两大关键功能,实现了语音输入和输出的灵活调控。

在语音合成方面,MiMo-V2.5-TTS系列提供了三款模型,分别针对不同的创作需求:

首先是MiMo-V2.5-TTS,内置多种高品质音色,经过专业优化,发音自然且富有情感,支持对语速、情绪、语气等参数进行精细调整,用户可直接使用,满足多样化的表达场景。

小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

其次是MiMo-V2.5-TTS-VoiceDesign,用户只需用一句自然语言描述,即可创造全新的音色,无需提供任何参考音频。

用户可以从年龄、性别、口音、音质甚至性格气质等多个维度自由定义,比如“声音低沉略带沙哑的老年学者”或“活力满满的少女”,模型便能自动生成对应的声音形象。

凭借大规模预训练能力,该模型能够准确理解复杂、模糊甚至相互矛盾的描述,而不仅限于男、女、青年、老年等简单分类。

第三是MiMo-V2.5-TTS-VoiceClone,主打音色克隆功能,用户仅需提供几秒钟的参考音频,无需额外训练或微调,即可复制真人播客、配音演员、品牌代言人,甚至是用户自己的声音。

复刻后的声音不仅保留了原说话人的音色特征,还涵盖了气息、节奏、习惯性停顿等个人细节。

同时,克隆出的音色还可以叠加自然语言指令、音频标签或导演级脚本,进一步提升语音创作的灵活性。

作为全链路语音模型系列的听觉基础,MiMo-V2.5-ASR在中英双语、中文方言、语种混合、强噪声环境、多说话人场景以及高知识密度内容等复杂真实条件下,均达到了行业领先水平。

小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

目前,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign以及MiMo-V2.5-TTS-VoiceClone已在Xiaomi MiMo API开放平台限时免费开放使用。

小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

举报

  • 相关推荐
  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 小米电视超级小爱上线语音遥控电视功能

    近日,小米电视的超级小爱语音助手完成重大升级,为用户带来更为便捷的交互体验,让电视操作真正实现“动口不动手”。 以往,用户使用小米电视查找影视资源、选集以及控制播放等操作,大多依赖遥控器手动完成,过程繁琐且不够高效。而此次升级后,情况发生了巨大改变。现在,用户只需发出语音指令,就能轻松完成各项操作。 在查找影视资源方面,用户无需再在�

  • 微信大改动!未读语音由红变灰被用户疯狂吐槽 腾讯回应

    近期不少iOS用户更新微信后发现,未读语音消息的提示色由醒目的红色变为灰色,该改动引发了大量用户吐槽与热议。 灰色未读语音与已读消息视觉高度相近,用户稍不留意就会忽略未读内容,不少人反馈因此错过工作通知、亲友重要信息,长期形成的红色提醒习惯被打破,使用体验明显下降。 腾讯客服对此回应称:未读语音变灰是iOS端未读模式”功能的灰度测试,属于阶�

  • 小米宣布MiMo-V2.5系列正式开源

    小米宣布开源其Xiaomi MiMo-V2.5系列模型,采用MIT协议,开发者可自由商用、微调及二次训练,无需额外授权。该系列包含两款模型,均具备100万上下文窗口处理能力,其中MiMo-V2.5-Pro针对复杂任务深度优化,适配Agent与Coding应用。在国际权威榜单GDPVal-AA和ClawEval上,MiMo-V2.5-Pro获全球开源模型第一。作为原生全模态模型,它能理解文本、图像、视频和音频,并具备出色Agent能力。目前,模型权重已全面开放,旨在推动AI技术普及与发展。

  • 微信又有新功能 网友:好用 长截图、发语音等上线

    长期以来,电脑端微信在操作便捷性上一直被用户吐槽,不少功能不得不依赖手机端完成。不过这一局面正在改变,微信电脑版近日推送了4.1.9版本更新,一口气上线了多项贴近日常使用的实用功能。 此次更新中最受关注的当属滚动长截图功能。过去在电脑上想要截取一篇长文章或一段完整的聊天记录,往往需要分多次截屏,再手动拼接,过程繁琐且容易出错。新版本上线后�

  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • 微信PC版大更新:长截图、发语音、表情连发都来了

    微信电脑版4.1.9版本更新,新增滚动长截图功能,用户只需截图后选择滚动截图并滑动鼠标滚轮,即可完整保存长文章。同时支持直接发送语音,点击话筒图标或按Alt键即可说话,快捷键可自定义设置。表情输入也更便捷,选择后按方向键可快速复制发送,无需重复点选。这些实用功能贴近日常需求,更新后即可使用,让办公聊天更省事。

  • 微信未读语音消息变灰 腾讯客服回应: iOS 端逐步开放

    近日,多位网友在社交平台上发帖称,更新微信版本后,发现未读的语音消息显示由原本的红色变成了灰色,这一变化引发了不少网友的吐槽。有网友表示,因为颜色变化,自己会经常误以为语音消息已经读过了,从而错过了一些重要信息。

今日大家都在搜的词: