首页 > 业界 > 关键词  > Whisper最新资讯  > 正文

Hugging Face研究人员推语音识别模型Distil-Whisper 速度提高、参数减少

2023-11-09 14:35 · 稿源:站长之家

划重点:

⦁ Hugging Face研究人员利用伪标记创建了一个庞大的开源数据集,用于提炼Whisper模型的较小版本,称为Distil-Whisper

⦁ Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。

⦁ 自动语音识别(ASR)系统已达到人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。

站长之家(ChinaZ.com)11月9日 消息:Hugging Face研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集,使用伪标记的方法,提炼出了Whisper模型的较小版本,称为Distil-Whisper。

声音 音频

图源备注:图片由AI生成,图片授权服务商Midjourney

Whisper语音识别变压器模型是在68万小时的嘈杂互联网语音数据上进行了预训练。它包括基于变压器的编码器和解码器组件,在零调优的情况下取得了竞争激烈的结果。而Distil-Whisper是通过使用伪标记进行知识提炼得到的紧凑版本。

Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。这项研究引入了一种针对语音数据的大规模伪标记方法,这是一个尚未充分开发但颇具前景的知识提炼途径。

自动语音识别(ASR)系统已经达到了人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。Whisper作为一个大型预训练ASR模型,在各种数据集上表现出色,但在低延迟部署方面可能更实用。而知识提炼在压缩自然语言处理变压器模型方面已经得到了有效应用,但在语音识别中的运用尚未得到充分探讨。

与原始 Whisper 模型相比,源自知识蒸馏的 Distil-Whisper 显着提高了速度并减少了参数,同时在具有挑战性的声学条件下保持了弹性。它的加速速度提高了5.8倍,参数减少了51%,在零样本场景下的分布外测试数据上实现了不到1% 的 WER。distil-medium.en 模型的 WER 稍高,但直接推理能力提高了6.8倍,模型压缩率提高了75%。Whisper 模型在长格式音频转录中容易出现幻觉错误,而 Distil-Whisper 可以减轻这些错误,同时保持有竞争力的 WER 性能。

Distil-Whisper 是通过知识蒸馏实现的 Whisper 模型的紧凑变体。这种创新方法在速度和参数减少方面产生了显着的好处,与原始 Whisper 模型相比,Distil-Whisper 速度更快,参数更少。尽管 WER 稍高,但 distil-medium.en 模型提供了更直接的推理和实质性的模型压缩。

项目网址:https://github.com/huggingface/distil-whisper

举报

  • 相关推荐
  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • 海尔麦浪舒适风Pro天猫首发!当日登顶行业热销榜TOP1

    海尔麦浪舒适风Pro空调新品上市即热销,半小时销量破5000套,登顶行业榜首。其核心亮点在于智慧送风技术:首次采用UWB人感雷达,能精准感知8米内人体呼吸,自动调节风感;支持1-4米定制风距,人近风柔、人离节能;多维送风技术适配多种安装位置,避免直吹不适。产品还具备AI离线语音控制、24小时制热不停机及70℃高温制冷等实用功能,显示空调市场正从基础冷暖需求转向更智能、贴心的空气体验。

  • ​畅玩《战地6》,双11电脑DIY装机配置推荐

    双11期间恰逢《战地6》等热门游戏发布,是升级主机的绝佳时机。推荐一套专为FPS电竞优化的硬件组合:AMD锐龙7 9800X3D处理器凭借大缓存实现帧率爆发,技嘉B850M电竞主板配备一键超频与散热技术确保稳定输出,搭配技嘉RTX 5070魔鹰显卡支持DLSS4技术,游戏帧率最高提升6倍。三款产品性能超值,组合购买享优惠,注册后更享4年质保与免费维修服务。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

今日大家都在搜的词: