首页 > 业界 > 关键词  > Parakeet最新资讯  > 正文

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

2024-01-08 11:10 · 稿源:站长之家

划重点:

- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型,实现了卓越的语音识别准确性。

- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器,具有0.6-1.1亿参数。

- 🎯 Parakeet 模型在各种基准数据集上表现出色,适用于不同语音环境下的语音转写。

站长之家(ChinaZ.com) 1月8日 消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

image.png

NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。

image.png

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 华为Mate 80标准版首次支持3D人脸识别:看齐Pro

    博主数码闲聊站爆料,华为Mate 80全系支持3D人脸识别,包括标准版,这在Mate系列史上还是第一次。 已知Mate 70 Pro系列支持3D人脸识别,其正面采用三挖孔形态,预计Mate 80系列正面也将是三挖孔设计,而且该机还将支持侧边指纹识别。 据悉,全新的华为Mate 80系列共有4款机型,分别是Mate 80、Mate 80 Pro、Mate 80 Pro Max、Mate 80 RS非凡大师。 其中Mate 80和Mate 80 Pro屏幕尺寸是6.75英寸,M

  • PayInOne携智能AI招聘产品Foundire亮相进博会,创新科技步履不停

    第八届中国国际进口博览会于2025年11月5日至10日在上海成功举办。全球招聘与薪酬管理平台PayInOne在服务贸易展区亮相,重点展示其AI驱动的智能招聘平台Foundire,该平台通过人才画像匹配、自动化筛选及智能评估体系,显著提升跨境招聘效率与精准度。CEO林坦在专题演讲中强调AI技术正推动用工模式变革,助力企业实现全球化高效合规管理。展会期间,PayInOne联合多家生态伙伴举办多场活动,探讨企业出海机遇,并与政府、企业界嘉宾深入交流,巩固了其在全球人力资源服务领域的行业领导地位。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 海量音色AI赋能,逗哥配音重塑语音创作新体验

    逗哥配音作为领先AI配音平台,以“海量音色+AI赋能”为核心,拥有上千款声音类型,覆盖多语言及商业场景。通过自研大模型韵律技术,实现情感饱满的语音生成,支持影音解说、小说推文等多种需求。平台内置场景化音色模板,新手也能快速制作专业配音,免费功能已满足日常短视频创作。其AI分角功能优化多人角色管理,提升对话内容制作效率。逗哥配音正重塑语音创作边界,成为短视频解说领域首选工具。

  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • 百度搜索AI API全面开放 绝大多数结果由AI生成

    11月13日,百度创始人李彦宏在2025百度世界大会上宣布,百度搜索已实现绝大多数结果由AI生成,首条结果富媒体覆盖率高达70%。他强调,百度正通过AI技术深度重构搜索结果页,从传统文字链接模式转向以图片、视频等富媒体内容为核心的AI应用。李彦宏指出,百度是全球搜索引擎中对AI化改造最激进的,正引领行业进入全新时代。他还表示,企业需善用AI方能立于不败之地,个人也需掌握AI技能以掌控未来。目前,百度已通过AI+API开放搜索能力,与三星、荣耀、vivo等主流厂商建立合作,共同探索AI搜索的无限可能。

  • 百度搜索推出“百度猎户座”AI引擎,涵盖基座模型、搜索AI API、 MCP、垂类优势能力

    2025年11月13日,百度发布“百度猎户座”AI引擎,全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力,基于多智能体架构统一连接信息、工具、服务与模型,融合搜索技术优势与全网MCP生态资源。即日起对外开放,支持企业快速接入打造专属AI应用。同时,文心助手上线个性化记忆功能,视频生成推出“参考生成”玩法,AI短剧创作平台免费提供超30万部IP资源及全流程工具。

  • 首发3229元起 小米年度旗舰智能门锁M40 Pro开售:AI掌静脉识别 隔空刷掌开锁

    今日,小米智能生态官微宣布,小米年度旗舰智能门锁M40 Pro今晚8点开售。 小米智能门锁M40 Pro建议零售价3799元,首发到手价3229.15元。 据了解,该门锁支持12种开锁方式,除AI掌静脉、AI 3D人脸识别、AI指纹、长期密码、周期/一次性密码、远程开锁、手机蓝牙开锁、应急机械钥匙外,还支持小米手机、手表、手环、NFC门卡(均需加购)开锁。

今日大家都在搜的词: