首页 > AI头条  > 正文

5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

2025-07-18 09:57 · 来源: AIbase基地

NVIDIA刚刚发布了Canary-Qwen-2.5B,这是一款突破性的自动语音识别(ASR)和语言模型(LLM)混合模型,以创纪录的5.63%词错率(WER)荣登Hugging Face OpenASR排行榜榜首。该模型获得CC-BY许可,具有商业许可和开源特性,为企业级语音AI发展扫清了障碍。

技术突破:统一语音理解与语言处理

此次发布标志着重要的技术里程碑,Canary-Qwen-2.5B将转录和语言理解统一到单一模型架构中,支持直接从音频执行摘要和问答等下游任务。这种创新架构彻底改变了传统ASR流程,将转录和后处理从独立阶段整合为统一工作流程。

QQ20250718-095428.png

关键性能指标

该模型在多个维度创下新纪录:

  • 准确性:5.63% WER,Hugging Face OpenASR排行榜最低
  • 速度:RTFx为418,可比实时速度快418倍处理音频
  • 效率:仅25亿参数,相比性能较差的大型模型更为紧凑
  • 训练规模:基于234,000小时多样化英语语音数据集

创新混合架构设计

Canary-Qwen-2.5B的核心创新在于其混合架构,包含两个关键组件:

FastConformer编码器专门用于低延迟和高精度转录,而Qwen3-1.7B LLM解码器则是未经修改的预训练大型语言模型,通过适配器接收音频转录标记。

这种适配器设计确保了模块化,允许Canary编码器分离,并将Qwen3-1.7B作为独立LLM运行用于基于文本的任务。单一部署即可处理口语和书面输入的下游语言任务,提升了多模态灵活性。

QQ20250718-095653.png

企业级应用价值

与许多受非商业许可约束的研究模型不同,Canary-Qwen-2.5B采用CC-BY许可发布,开启了广泛的商业应用场景:

  • 企业转录服务
  • 基于音频的知识提取
  • 实时会议总结
  • 语音控制的AI代理
  • 符合法规要求的文档处理(医疗保健、法律、金融)

该模型的LLM感知解码功能还提升了标点符号、大写字母和上下文准确度,这些往往是传统ASR输出的薄弱环节。

硬件兼容性与部署灵活性

Canary-Qwen-2.5B针对多种NVIDIA GPU进行了优化,支持从数据中心的A100、H100到工作站RTX PRO6000,再到消费级GeForce RTX5090等硬件。这种跨硬件类别的扩展性使其适用于云推理和内部边缘工作负载。

开源推动行业发展

通过开源该模型及其训练方案,NVIDIA研究团队旨在促进社区驱动的语音AI进步。开发者可以混合搭配其他兼容NeMo的编码器和LLM,为新领域或语言创建特定任务的混合模型。

该版本还为以LLM为中心的ASR开创了先河,其中LLM不再是后处理器,而是集成在语音转文本流程中的核心代理。这种方法反映了向代理模型迈进的更广阔趋势——能够基于现实世界多模态输入进行全面理解和决策的系统。

NVIDIA的Canary-Qwen-2.5B不仅仅是一个ASR模型,更是将语音理解与通用语言模型相集成的蓝图。凭借SoTA性能、商业可用性以及开放的创新途径,该版本有望成为企业、开发者和研究人员解锁下一代语音优先AI应用的基础工具。

地址:https://huggingface.co/nvidia/canary-qwen-2.5b

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 男子在山东高速偶遇欧盟牌照小车 网友:真稀罕

    ​7月17日,在山东荣乌高速上发生了一件引发网友广泛关注的事情。当天,一名男子在驱车出行时,意外发现一辆停靠在路旁的蓝白相间小车,这辆车最引人注目的是它悬挂着欧盟牌照,车体上还带有多个国家的国旗标识。 这一罕见的场景迅速在网络上引发热议。不少网友看到相关视频和图片后,纷纷留言调侃,有人联想到影视角色,戏称“看看里面坐的是不是憨豆先生”。

  • 男子在山东高速偶遇欧盟牌照小车 车主自驾游历众多国家

    近日,一则关于男子在山东高速偶遇欧盟牌照小车的消息在网络上广泛传播,引起了众多网友的关注和热议。 据悉,7月17日,一名男子在山东荣乌高速上驱车出行时,意外地发现了一辆蓝白相间的欧盟牌照小车停靠在路旁。这辆小车车体上密密麻麻地装饰着多个国家的国旗标识,其特殊的欧盟牌照身份,瞬间在高速公路上形成了一道独特的风景线,也迅速在网络上掀起了轩然

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 日均外卖2.5亿单,MAD都赢麻了

    ​MAD(美团、阿里、京东)外卖大战,经历了连续两个“疯狂星期六”后,正演变为一场颇为罕见的没有输家的战争。 从今年2月11日京东外卖上线算起,外卖“三国杀”已经打了150天。美团、淘宝和京东三大平台你来我往,远未分出胜负,却把整个外卖(含非餐饮品类)市场的总规模打到了战前的三倍以上。 根据各平台的最新战报,美团即时零售订单已达1.5亿单,淘宝闪购

  • 男子在山东高速偶遇欧盟牌照小车 网友热议“老爷车”上路

    日前,一则网友发布的视频在网络上引发关注。视频显示,在山东高速上,一辆悬挂欧盟牌照的小车在车流中格外显眼,吸引了不少网友的目光。 据发布视频的网友介绍,他们前往威海游玩途中,经过荣乌高速时,偶然看到了这辆悬挂着欧盟捷克牌照的小车,觉得十分新奇有趣。仔细看还能发现,这辆小车车身上装饰有不少其他国家的国旗,推测应该是车主自驾游历过众多国

  • 爆胎不拉手刹遇上盲信辅助驾驶 高速上两车撞成一团

    近日,公安部交通管理局披露了一起在高速爆胎后不拉手刹,车辆溜车被一辆开启了辅助驾驶的小车撞上的事故。 6月21日,沪昆高速江西南昌境内。宋某驾车在快车道行驶时,车辆突发爆胎撞上中央护栏,并旋转着冲向右侧护栏才停下。 随后,车上人员很快都下车转移到了护栏外,可宋某忘了拉手刹,车子又直接自行溜上了快车道。 没多久,杨某驾车行经此处,直接撞上�

  • 以玩家之名,出征!世纪华通2025ChinaJoy参展主题、原创音乐首曝

    2025ChinaJoy将于8月1-4日在上海举办,世纪华通将以"Game for Gamers"为主题参展,强调"回归游戏"和"玩家至上"理念。展台设计融合视觉与听觉元素,呈现键盘、VR头盔等交互设备,展现多元游戏体验。公司连续三年为ChinaJoy创作主题曲,今年推出同名原创音乐《Game for Gamers》,歌词描绘玩家成长轨迹。世纪华通积极布局AI领域,探索原生AI游戏内容,旗下"数龙杯"全球AI创新大赛已进入评审阶段。公司多款游戏展现技术创新,从《Whiteout Survival》到《街头篮球》,持续推动行业创新发展。

  • 腾讯视频上线“超高清内容”专区:4K/60帧 支持HDR Vivid

    近日,腾讯视频推出超高清内容”专区,集纳平台400余部超高清内容,涵盖电视剧、电影、纪录片、综艺、动画片、微短剧等品类,在各端进行重点推荐。 腾讯视频超高清方案命名为臻彩”,这是腾讯视频超高清的代表性技术。 2025年1月,腾讯视频自研超高清视听品牌臻彩”的高阶版本臻彩MAX”正式推出,主打极致画质与沉浸式观影体验。

  • 天硕工业级M.2 NVMe SSD固态硬盘固件级加密构筑防破解安全体系

    天硕(TOPSSD)是国内领先的工业级存储解决方案提供商,其G55Pro M.2 NVMe工业级SSD采用100%国产元器件,支持3600MB/s高速读取,具备-55℃~85℃宽温域稳定运行能力。产品集成国密SM2/3/4算法与国际AES-256、SHA、RSA等加密技术,构建多重数据保护体系,满足军工、金融等领域对数据安全的高要求。通过硬件级掉电保护、智能擦除等功能,以及200万小时MTBF认证,为关键行业提供高性能、高可靠的存储解决方案。

今日大家都在搜的词: