首页 > 原创 > 关键词  > AI语音最新资讯  > 正文

小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

2025-09-19 14:43 · 稿源:站长之家

小米在AI语音领域投下重磅炸弹。公司正式发布首款开源原生端到端语音大模型Xiaomi-MiMo-Audio,这款拥有12亿参数的模型声称在智能性、情感表达和交互适配方面已接近人类水平。

该模型最大的技术突破在于少样本学习能力。传统语音模型严重依赖大规模标注数据,在面对新任务时往往表现不佳。MiMo-Audio通过创新的预训练架构和超过一亿小时的训练数据,成功突破了这一技术瓶颈。

image.png

小米将GPT-3的自回归学习思路引入语音领域,创造了基于上下文学习的少样本泛化能力。这种方法让模型能够在多任务间灵活转换,显著提升了语音交互的流畅性和自然度。

技术架构方面,MiMo-Audio基于Transformer构建,能够同时支持音频重建和音频转文本等多种任务。模型的三大创新点包括:将语音无损压缩预训练规模扩展至一亿小时,验证跨任务泛化能力;明确语音生成式预训练目标,开源完整预训练方案;以及实现12亿参数规模的端到端语音处理。

image.png

开源策略上,小米已在Huggingface平台发布预训练和指令微调版本,同时在Github开源了Tokenizer模型。这种全面开源的做法为研究者和开发者提供了完整的工具链。

不过,需要注意几个关键问题。首先,"接近人类交互水平"这一表述缺乏具体的评估标准和对比数据。语音交互的自然度评判往往具有主观性,需要更多客观指标来验证。

其次,虽然模型在技术指标上看似先进,但实际应用效果还需要广泛的用户测试验证。语音AI的真正价值体现在实际场景中的表现,而非仅仅是技术参数。

从竞争角度看,12亿参数规模在当前语音AI领域属于中等水平,相比一些大厂的数十亿参数模型仍有差距。小米的优势可能更多体现在开源策略和端到端集成能力上。

技术路径方面,将GPT的方法应用于语音领域确实是有意义的探索,但语音和文本在数据特性、处理复杂度等方面存在显著差异,直接迁移的效果还需要实践检验。

当语音AI开始具备少样本学习能力,当算法学会了情感表达的技巧,人机语音交互的未来正在被重新定义。小米的这次开源举措虽然在宣传上略显夸大,但确实为语音AI技术的普及和发展做出了贡献。在这个快速发展的领域,开源模式可能比单纯的技术领先更具长远价值。

举报

  • 相关推荐
  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 微算法科技(NASDAQ MLGO)研发基于AI的动态权重学习模型,开启区块链账户关联分析智能新时代

    微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器�

  • 智能座舱的“理想”样本背后,为什么需要一朵AI云?

    文章探讨了智能座舱体验作为汽车差异化竞争的核心,指出在AI时代汽车正从“出行工具”转变为“移动空间”。理想汽车与阿里云的合作展示了如何通过端云协同架构实现“速度”与“深度”的结合:端侧确保交互响应速度(如通义Qwen模型延迟仅211ms),云侧承担深度推理和长期记忆(基于Tair、Lindorm等数据库实现99.5%召回率)。这种协作既定义了“家”般的座舱温度感,也揭示了车厂与云厂商的高效合作模式,推动移动智能体持续进化。

  • 声网与Oopz达成战略合作 共同打造游戏语音场景AI降噪极致体验

    游戏语音头部平台Oopz与声网达成战略合作,聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术,针对复杂多变噪音环境,解决降噪不彻底、过度降噪等痛点,提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向,优化主播端功能,共同打造更稳定流畅的语音解决方案。

今日大家都在搜的词: