英伟达推新AI语音识别模型Parakeet 号称优于Whisper

2024-01-08 11:10 · 稿源：站长之家

划重点:
- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型，实现了卓越的语音识别准确性。
- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器，具有0.6-1.1亿参数。
- 🎯 Parakeet 模型在各种基准数据集上表现出色，适用于不同语音环境下的语音转写。

站长之家(ChinaZ.com) 1月8日消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发，是语音识别领域的一大突破，为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布推出了四个 Parakeet 模型，这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器，并且具有0.6-1.1亿参数。它们能够应对各种音频环境，并且在仅使用了64，000小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性，推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快，识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强，推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快，识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段（包括音乐和静音）具有抗干扰能力，有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的，注重用户友好性和灵活性。预训练的检查点可供直接使用，将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调，NeMo 都提供了一个强大而直观的框架，充分发挥模型的潜力。

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现，并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型，能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建，可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布，模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性，加上 NeMo 提供的灵活性和易用性，使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信，无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b，并在 Gradio 演示中使用。要在本地访问模型并探索工具包，请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

（举报）

相关推荐

关键词：

从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

AI时代重塑陪伴形式，联想“想帮帮AI服务智能体”以公益之心推出，通过五大功能（智玩、智验、智检、智修、智换）构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统，一键解决电脑卡顿等问题，让用户省时省心。该服务强调责任与长期守护，结合北京领养日公益理念，传递科技向善、服务有爱的智能温度，重新定义AI陪伴的全部意义。

AI陪伴领养代替购买智能服务
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

供应链数字化进程中，单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错，通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理，覆盖全场景单证类型，支持无缝对接业务系统。实际应用显示：托书录入效率提升500%，错误率降至0.1%以下；报关草单制单效率提升300%，有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

供应链数字化转型单证处理效率瓶颈
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
荐Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

10月24日，超聚变公司发布FusionXpark™智能体开发平台，实现AI算力从云端下沉至桌面设备。该平台搭载GB10架构，提供1PFLOPS本地算力，支持200B参数模型推理，助力开发者在边缘端运行高参数模型。发布会展示了政务、金融、工业等五大行业的30类“超级员工”智能体应用，通过私有化部署保障数据安全。专家指出，这一创新将推动AI普惠化，重塑产业生态。

AI原生计算智能体开发平台 FusionXpark
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成

今日大家都在搜的词：

热文

3 天
7天

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

荐Sora App的AI视频社交，给了百度们新希望

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

荐MiniMax让AI语音有了新基建

荐OpenAI也来了，巨头为何决战AI浏览器？

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

何小鹏回应机器人IRON里是真人质疑：感谢认可

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机