首页 > AI头条  > 正文

​英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

2025-05-06 09:31 · 来源: AIbase基地

近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。

QQ_1746495042000.png

 超强转录能力

Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称,该模型能够在仅仅一秒内完成60分钟音频的转录,极大提高了语音处理的速度。这一效率让开发者和企业在构建语音识别和转录服务时,能够获得更快的反馈和更高的生产力。

在技术参数上,Parakeet-TDT-0.6B-V2拥有6亿个参数,结合了 FastConformer 编码器和 TDT 解码器架构。这一设计使得该模型在 Hugging Face 的开放 ASR 排行榜上脱颖而出,当前其平均 “词错误率”(WER)仅为6.05%,接近市面上多个商业转录工具的表现,例如 OpenAI 的 GPT-4o-transcribe(2.46%)和 ElevenLabs Scribe(3.3%)。

广泛应用场景

Parakeet-TDT-0.6B-V2于2025年5月1日全球发布,旨在帮助开发者、研究人员和行业团队构建多样化的应用,包括转录服务、语音助手、字幕生成器以及对话式 AI 平台等。该模型支持标点符号、大小写字母的处理,并提供详细的逐字时间戳,满足各种语音转文本的需求。

开发者可以利用英伟达的 NeMo 工具包轻松部署该模型,支持 Python 和 PyTorch 等开发环境的兼容性,既可直接使用,也可根据特定需求进行微调。

训练数据与模型优化

Parakeet-TDT-0.6B-V2的训练数据来自名为 Granary 的大规模语音数据集,该数据集包含约12万小时的英语音频,其中包括1万小时的高质量人工转录数据和11万小时的伪标记语音。这些数据来源于多个知名数据集,如 LibriSpeech 和 Mozilla Common Voice,确保了模型的训练质量和多样性。

在评估方面,该模型经过多个英语 ASR 基准测试验证,显示出良好的泛化能力。即使在复杂的噪声环境下,它也能保持稳定的性能,适用于各种音频格式的转录。

 兼容性与效率

为了确保广泛的应用场景,Parakeet-TDT-0.6B-V2针对英伟达的多款 GPU 硬件进行了优化,如 A100、H100、T4和 V100。虽然高端 GPU 能最大化其性能,但即使在只有2GB RAM 的系统上,该模型也能够顺利运行,这为其在不同设备上的应用提供了更多可能。

值得注意的是,英伟达在开发该模型时未使用任何个人数据,符合其负责任的 AI 开发框架。此外,英伟达还提供了详细的训练过程文档和数据集来源信息,确保用户在使用过程中能够理解模型的背景和依据。

Parakeet-TDT-0.6B-V2的发布不仅展示了英伟达在自动语音识别领域的创新实力,也为开发者提供了一个强大且灵活的工具,助力他们在各自的领域中实现更多可能。

huggingface:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

  • 相关推荐
  • 超越DeepSeek-R1,英伟达开源新王登顶,14万H100小时训练细节曝光

    英伟达发布开源Llama-Nemotron系列模型,性能超越DeepSeek-R1。该系列包含三个版本:8B、49B和253B参数模型,其中253B的Ultra版本在推理吞吐量和内存效率上表现突出。关键技术包括:1)采用神经架构搜索优化模型结构;2)通过知识蒸馏和持续预训练提升性能;3)结合合成数据监督微调;4)在STEM领域进行大规模强化学习训练。Ultra版本在GPQA基准测试中达到开源模型最高水平,单节点8xH100即可高效运行。模型创新性支持"推理开关"功能,通过指令动态切换推理模式。训练流程包含五阶段优化,最终模型在数学推理和通用任务上均表现优异,部分基准超越专有模型。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • 英伟达重夺球市值第一头衔 再度超越微软

    去年6月19日,英伟达股价曾以135.58美元创下历史新高,当时总市值达3.335万亿美元,一举超越微软和苹果,首次登上全球市值最高上市公司的宝座。此后,在全球市值排名中,英伟达与苹果、微软展开激烈角逐,三者轮番登顶。上一次英伟达成为市值最高的公司是在今年1月24日。 从英伟达自身的财务表现来看,其业绩也相当亮眼。根据英伟达2026财年第一季度财报,该季度公司

  • 499元起 荣耀手表Fit发布:搭载Deepseek语音对话 23天长续航

    今日,荣耀手表Fit正式发布,带来雅致版、活力版两种版本,售价分别为499元和699元。 荣耀手表Fit采用1.32英寸圆形AMOLED屏幕,466*466分辨率,活力版为硅胶表带、雅致版为皮表带,表体尺寸(长/宽/高)44mm x 44mm9.9mm,含表带重约44g。 荣耀手表Fit搭载Deepseek语音对话、支持AI语音对话,首发健康能量评估,可全天候计算身体能量值,并随着白天活动和睡眠状态灵敏调整,智能提醒

  • 2499元起!英伟达RTX 5060显卡开启预约:5月20日0点开售

    英伟达RTX 5060显卡5月14日开启预约,5月20日正式发售,基础款统一售价2499元。该显卡采用GB206-250 GPU芯片,配备3840个CUDA核心,加速频率2497MHz,搭载8GB GDDR7显存(等效频率28GHz),功耗145W。相比RTX 4060,核心数增加25%,显存带宽提升65%,功耗增加30W。支持DLSS 4技术,可助力游戏实现100FPS流畅体验。华硕、七彩虹、技嘉、微星等品牌双风扇版本已上架电商平台。

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • Anthropic 开始给 Claude 搞“语音模式”了

    默认情况下,该功能由 Anthropic 的 Claude Sonnet 4 模型提供支持,大多数免费用户每天大约可使用 20 到 30 次。此外,只有付费用户才能使用一项 Google Workspace 连接功能……

  • BTC披萨节遇上TRUMP晚宴,HTX送出百万USDT狂欢福利

    HTX交易所为庆祝5月22日比特币披萨节与TRUMP晚宴,推出多重福利活动。活动包括:1)"加密披萨节"主题福利,完成5档任务可抽奖,奖品含HTX周年礼包、披萨券等;2)新老用户参与四重福利活动,瓜分20万美元奖池;3)知识答题赢200 USDT;4)理财享最高10%年化补贴;5)C2C交易瓜分1万USDT;6)KOL专场赢茅台;7)闪兑交易赛瓜分1万USDT。活动覆盖现货、合约、C2C等多场景,�

  • 英伟达纵深扩展量子计算版图,微软/微美息共发力奔赴技术革命新征程!

    英伟达CEO黄仁勋在COMPUTEX2025发表主题演讲,宣布推出企业AI计算平台NVIDIA RTX PRO服务器,搭载RTX PRO6000 Blackwell GPU,专为驱动AI工厂和加速企业AI工作负载设计。同时英伟达布局量子计算,设立全球量子AI技术研发中心G-QuAT,并投资量子计算初创公司PsiQuantum。微软宣布将后量子密码学技术整合到Windows系统,谷歌高管预测量子计算应用或将在五年内实现。微美全息作为量子产业先锋,通过量子计算与AI超算融合实现技术突破。全球科技巨头正加速布局量子计算领域,英伟达引领AI产业向纵深发展,在新竞争格局下进军量子计算,押注下一代技术浪潮。

今日大家都在搜的词: