首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta 的开源语音 AI 项目 MMS 可识别 4000 多种口头语言

2023-05-23 09:28 · 稿源:站长之家

站长之家(ChinaZ.com) 5月23日消息: Meta 公司的人工智能研究团队今天宣布开源一个名为「Massively Multilingual Speech(大规模多语言语音)」的新项目,旨在解决创建准确可靠的语音识别模型的挑战。

345642148_1307836530084996_235818007697008664_n.png

图片来自Meta

能够识别人类语音并清晰回应的 AI 模型具有巨大的潜力,特别是对于完全依赖语音访问获取信息的人来说。然而,训练高质量的模型通常需要大量的数据,包括数千小时的音频和对话内容的转录。对于许多语言,特别是那些较为冷门的语言,这样的数据根本不存在。

MetaMMS 项目通过将一种名为 wav2vec 2.0 的自监督学习算法与一个提供了超过 1,100 种语言标记数据和近 4,000 种语言无标记数据的新数据集相结合,克服了数据不足的问题。

为了解决某些语言数据缺乏的问题,Meta 的研究人员利用《圣经》这本在很多语言中已经被翻译的书籍。其翻译通常被用于基于文本的语言翻译研究,并且许多语言而且,还有人们朗读这些文本的公开可用的音频录音。

「作为这个项目的一部分,我们创建了一个包含 1,100 多种语言新约圣经的数据集,平均每种语言提供了 32 小时的数据量,」Meta 的研究人员说道。

当然,32 小时的数据量不足以训练传统的有监督语音识别模型,这就是为什么使用 wav2vec 2.0 的原因。Wav2vec 2.0 是一种自监督学习算法,使机器能够在不依赖于标记训练数据的情况下学习。

借助这种算法,可以用更少的数据训练语音识别模型。MMS 项目在 1,400 多种语言中的约 500,000 小时的语音数据上训练了多个自监督模型,然后对生成的模型进行了特定的语音任务微调,如多语言语音识别或语言识别。

Meta 表示,生成的模型在 FLEURS 等标准评估以及与其他语音识别模型的比较中表现良好。

「我们使用了一个包含 1B 参数的 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型,」Meta 的研究人员解释道,「随着语言数量的增加,性能确实会下降,但幅度很小,:从 61 种语言增加到 1,107 种语言,字符错误率仅增加约 0.4%,但语言覆盖范围增加了 17 倍以上。」

在与 OpenAI LP 的 Whisper 语音识别模型进行直接比较时,Meta 的研究人员发现,使用 MMS 数据训练的模型的单词错误率大约是其一半。「这表明我们的模型在与目前最佳的语音模型相比时表现非常出色,」研究人员表示。

Meta 表示,现在他们正在分享 MMS 数据集和用于改进和训练模型的工具,以便 AI 研究界的其他人能够在此基础上进行进一步的工作。MMS 项目的目标包括扩大其覆盖范围以支持更多的语言,并改善对方言的处理,这是现有语音技术所面临的主要挑战。

「我们的目标是让人们更容易以自己偏好的语言获取信息和使用设备,」研究人员说道,「我们还设想未来的情景是,一个单一模型能够解决所有语言的多种语音任务。虽然我们训练了独立的语音识别、语音合成和语言识别模型,但我们相信将来一个单一模型将能够完成所有这些任务,带来更好的整体性能。」

阅读 Massively Multilingual Speech 论文:

https://scontent-lax3-1.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX_yQtEQ&_nc_ht=scontent-lax3-1.xx&oh=00_AfBipaI73eh87z3lODjaTSNH37lzKAlLduzJQH2er1yjkw&oe=6471ACCF

在 GitHub 上获取 Massively Multilingual Speech:

https://github.com/facebookresearch/fairseq/tree/main/examples/mms

举报

  • 相关推荐
  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书

    当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进,供应链加速本土化,AI从前沿技术跃升为核心生产力。麦肯锡研究显示,生成式AI有望为全球经济贡献7万亿美元,中国预计占2万亿美元,接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求,企业需构建新一代数据基础设施,实现数据生产、治理与AI应用的动态融合,突破"数据烟囱",支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升,成为智能社会的核心引擎。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

今日大家都在搜的词: