英伟达推新AI语音识别模型Parakeet 号称优于Whisper

2024-01-08 11:10 · 稿源：站长之家

划重点:
- 🌟 NVIDIA NeMo 推出 Parakeet ASR 模型，实现了卓越的语音识别准确性。
- 🚀 Parakeet 模型基于 RNN Transducer 和 Connectionist Temporal Classification 解码器，具有0.6-1.1亿参数。
- 🎯 Parakeet 模型在各种基准数据集上表现出色，适用于不同语音环境下的语音转写。

站长之家(ChinaZ.com) 1月8日消息:领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发，是语音识别领域的一大突破，为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布推出了四个 Parakeet 模型，这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器，并且具有0.6-1.1亿参数。它们能够应对各种音频环境，并且在仅使用了64，000小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性，推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快，识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强，推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快，识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段（包括音乐和静音）具有抗干扰能力，有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的，注重用户友好性和灵活性。预训练的检查点可供直接使用，将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调，NeMo 都提供了一个强大而直观的框架，充分发挥模型的潜力。

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现，并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型，能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建，可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布，模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性，加上 NeMo 提供的灵活性和易用性，使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信，无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b，并在 Gradio 演示中使用。要在本地访问模型并探索工具包，请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI最新研究成果展示了他们的Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。Universal-1比WhisperLarge-v3更准确，比fastWhisper更快，38秒可以处理60分钟音频。值得一提的是，非开源，仅提供API调用。

Universal-1 Whisper AI头条
荐AI行业买英伟达GPU，花的钱比赚的多17倍

搞AI大模型，实在太烧钱了。如今的生成式AI有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进GPU的并行算力将其推广落地。无论花掉多少钱，成为第一可能就会带来潜在的收益……但是什么样的收益，我们还无法作出预测。

AI 大模型资本游戏
AI明星创业公司买英伟达GPU ，几周估值翻倍，但花的钱比赚的多17倍

在AI行业，尤其是生成式AI领域，技术的快速发展和应用的广泛前景吸引了大量的投资和关注。这一领域的高昂成本也引起了业界的广泛讨论。如何在追求技术进步的同时实现可持续的商业模式，是所有AI公司需要面对的重要问题。

英伟达
英伟达斥资7亿美元收购Run:ai，进一步巩固在AI领域地位

AI巨头公司英伟达继续其战略性收购行动，今日宣布将收购一家以色列初创公司，以使AI芯片更高效。这家芯片制造商已经签署了一项“最终协议”，收购基于Kubernetes的软件提供商Run:ai，后者帮助优化图形处理单元上的AI应用和工作负载。“Run:ai自2020年以来一直与英伟达紧密合作，我们都热衷于帮助客户充分利用其基础设施，”Geller在宣布这项交易的英伟达博客文章中说道。

Run:ai 英伟达 AI头条
苹果AI放大招！声称其设备端模型性能优于GPT-4

在最近的一篇论文中，苹果的研究团队宣称，他们提出了一个可以在设备端运行的模型ReALM，这个模型在某些方面可以超过GPT-4。ReALM的参数量分别为80M、250M、1B和3B，体积都非常小，适合在手机、平板电脑等设备端运行。这项研究有望用来改进苹果设备上的Siri助手，帮助Siri更好地理解和处理用户询问中的上下文。

苹果 ReALM AI
Parler-TTS：一个高质量文本到语音（TTS）模型

一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型，它能够生成听起来非常自然的语音，为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南，帮助用户快速上手并根据自己的需求对模型进行定制。

语音模型 Parler-TTS AI头条
英伟达投资东南亚：将在印尼投资2亿美元建AI中心

英伟达近日宣布将与印尼第二大移动电信公司IndosatOoredooHutchison携手，在梭罗建设一座总投资额高达2亿美元的人工智能开发中心，此举标志着英伟达进一步扩大在印尼乃至整个东南亚的业务版图。据印尼通讯与信息部长布迪阿里塞蒂亚迪透露，这座名为IndonesiaAINation”的开发中心将加强当地的电信基础设施、人力资源和数字人才，为印尼乃至整个东南亚地区的人工智能和技术进

英伟达印尼人工智能
李斌：蔚来自研芯片一颗顶英伟达四颗

蔚来李斌近日表示，去年购买了很多的英伟达芯片，这耗费了公司不少钱，为此公司转向自研芯片，因为一颗芯片可以顶四颗，所以能降低成本。在2023蔚来日上，蔚来正式发布了首颗自研智能驾驶芯片神玑NX9031。配合蔚来汽车的最强安全冗余能力，神玑NX9031能够带来极致安心的驾驶体验，让驾驶者在享受智能驾驶带来的便利的同时，也能感受到蔚来汽车对安全性能的极致追求�

蔚来自研芯片智能驾驶
苹果新AI模型OpenELM或暗示iPhone可能迎来AI革新

苹果一直对其生成式人工智能的计划保持沉默，但随着今天发布新的AI模型，公司的即时目标似乎牢固地落在“使AI本地运行在苹果设备上”的领域。苹果的研究人员于周三在HuggingFace模型库上发布了OpenELM，这是一系列四个非常小的语言模型。即使苹果发布了这么多模型，公司据称仍与谷歌和OpenAI合作，将它们的模型引入苹果产品中。

OpenELM AI头条
Parler-TTS官网体验入口 AI语音生成工具免费使用地址

Parler-TTS是一个由HuggingFace开发的轻量级文本转语音模型，能够以给定说话者的风格生成高质量、自然sounding的语音。它是基于DanLyth和SimonKing发表的论文《Naturallanguageguidanceofhigh-fidelitytext-to-speechwithsyntheticannotations》的工作复现，两位作者分别来自StabilityAI和爱丁堡大学。此工具还提供了丰富的注释语音数据集，让您从中受益。

Parler-TTS

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

今日大家都在搜的词：

热文

站长商机