小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

2025-09-19 14:43 · 稿源：站长之家

小米在AI语音领域投下重磅炸弹。公司正式发布首款开源原生端到端语音大模型Xiaomi-MiMo-Audio，这款拥有12亿参数的模型声称在智能性、情感表达和交互适配方面已接近人类水平。

该模型最大的技术突破在于少样本学习能力。传统语音模型严重依赖大规模标注数据，在面对新任务时往往表现不佳。MiMo-Audio通过创新的预训练架构和超过一亿小时的训练数据，成功突破了这一技术瓶颈。

小米将GPT-3的自回归学习思路引入语音领域，创造了基于上下文学习的少样本泛化能力。这种方法让模型能够在多任务间灵活转换，显著提升了语音交互的流畅性和自然度。

技术架构方面，MiMo-Audio基于Transformer构建，能够同时支持音频重建和音频转文本等多种任务。模型的三大创新点包括:将语音无损压缩预训练规模扩展至一亿小时，验证跨任务泛化能力;明确语音生成式预训练目标，开源完整预训练方案;以及实现12亿参数规模的端到端语音处理。

开源策略上，小米已在Huggingface平台发布预训练和指令微调版本，同时在Github开源了Tokenizer模型。这种全面开源的做法为研究者和开发者提供了完整的工具链。

不过，需要注意几个关键问题。首先，"接近人类交互水平"这一表述缺乏具体的评估标准和对比数据。语音交互的自然度评判往往具有主观性，需要更多客观指标来验证。

其次，虽然模型在技术指标上看似先进，但实际应用效果还需要广泛的用户测试验证。语音AI的真正价值体现在实际场景中的表现，而非仅仅是技术参数。

从竞争角度看，12亿参数规模在当前语音AI领域属于中等水平，相比一些大厂的数十亿参数模型仍有差距。小米的优势可能更多体现在开源策略和端到端集成能力上。

技术路径方面，将GPT的方法应用于语音领域确实是有意义的探索，但语音和文本在数据特性、处理复杂度等方面存在显著差异，直接迁移的效果还需要实践检验。

当语音AI开始具备少样本学习能力，当算法学会了情感表达的技巧，人机语音交互的未来正在被重新定义。小米的这次开源举措虽然在宣传上略显夸大，但确实为语音AI技术的普及和发展做出了贡献。在这个快速发展的领域，开源模式可能比单纯的技术领先更具长远价值。

（举报）

相关推荐

关键词：

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
微算法科技（NASDAQ MLGO）研发基于AI的动态权重学习模型，开启区块链账户关联分析智能新时代

微算法科技（NASDAQ MLGO）推出基于AI的动态权重学习模型，解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构，结合注意力机制LSTM、联邦学习等技术，实时捕捉交易模式演变，动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著，提升交易处理速度与欺诈识别率。未来计划融合多模态数据，探索量子机器�

区块链技术账户关联分析动态权重学习模型
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作

今日大家都在搜的词：

热文

3 天
7天

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐MiniMax让AI语音有了新基建

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

微算法科技（NASDAQ MLGO）研发基于AI的动态权重学习模型，开启区块链账户关联分析智能新时代

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

今日大家都在搜的词：

热文

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

鸿蒙智行：智界R7累计交付量破10万台

华为Mate 70 Air今日开售：处理器双版本可选售价4199元起

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

何小鹏回应机器人IRON里是真人质疑：感谢认可

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

俞敏洪发文确认孙东旭离职：保持着良好的沟通

站长商机

小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

今日大家都在搜的词：

热文

站长商机

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务