摩尔线程开源音频理解大模型MooER：38小时训练5000小时数据

2024-08-24 14:08 · 稿源：快科技

<a href="//www.chinaz.com/tags/703591.shtml" target="_blank"><span>摩尔线程</span></a>开源<a href="//www.chinaz.com/tags/882313.shtml" target="_blank"><span>音频理解</span></a>大模型MooER

摩尔线程开源音频理解大模型MooER

简介

摩尔线程推出了业界首个基于国产全功能GPU训练和推理的大型开源语音模型MooER。该模型依托于摩尔线程的夸娥智算平台，结合自研算法和计算资源，仅用38小时完成5000小时音频数据训练。

特性

支持中文和英文语音识别
具备中译英语音翻译能力
在多个语音识别领域中表现优异或持平

模型结构

MooER模型结构包括三个部分：编码器、适配器和解码器（LLM）。

编码器：对输入音频建模，提取特征和获取表征向量
适配器：对编码器输出进行下采样，每120ms输出一组音频嵌入
解码器：将音频嵌入和文本嵌入拼接后，执行下游任务（如语音识别、语音翻译）

训练详情

训练数据：部分开源数据和内部语音识别伪标签
模型参数规模：5000小时数据训练模型（MooER-5K）和8万小时数据训练模型（MooER-80K）
训练框架：DeepSpeed
精度：BF16

对比结果

MooER与其他开源音频理解大模型（训练规模从几万小时到上百万小时）对比，在多个测试集中取得了以下结果：

中文测试集CER：4.21%
英文测试集WER：17.98%
中译英BLEU：25.2

启示

摩尔线程基于MooER的研究得出以下启示：

无监督训练的编码器需要参与训练
音频建模粒度对模型效果和收敛速度至关重要
基于少量目标垂类数据，可以快速适应到不同任务
LoRA技术可以加快训练收敛并提升效果

开源代码

MooER代码已开源，可在以下地址获取：
https://github.com/MooreThreads/MooER

技术文档

更多技术细节，请参考技术文档：
https://arxiv.org/pdf/2408.05101

（举报）

相关推荐

关键词：

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
来教装展，看全栈自主可控国产教育大模型何以赋能教学？

10月24-26日，第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心，展示五大智慧教育场景：智慧教学通过AI黑板实现师生协同，提升效率；科学教育推出AI虚拟科学家互动平台，激发探索精神；身心健康方案构建体育健康闭环与心理服务体系；教育治理推出数据驱动决策平台；学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校，服务超1.3亿师生，展现AI从工具升级为“教育伴侣”的价值。

教育装备展示会人工智能+教育智慧教学
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
免费 GEO品牌可见度查询——让大模型信得过就这么玩

本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括：可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力；提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度，通过持续优化提升在大模型入口的推荐概率。

文章搜索核心标签可信信息源
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统

今日大家都在搜的词：

热文

3 天
7天

摩尔线程开源音频理解大模型MooER：38小时训练5000小时数据

摩尔线程开源音频理解大模型MooER

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

免费 GEO品牌可见度查询——让大模型信得过就这么玩

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

DeepSeek开源3B OCR模型：长文本识别达97%精度

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

鸿蒙智行：全新问界M7上市36天交付破20000台

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

微信红包封面现已支持跳转「微信小店」

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

iPhone 18系列或将首发自研基带C2

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

鸿蒙智行：全新问界M7上市36天交付破20000台

站长商机