首页 > 业界 > 关键词  > Whisper最新资讯  > 正文

Hugging Face研究人员推语音识别模型Distil-Whisper 速度提高、参数减少

2023-11-09 14:35 · 稿源:站长之家

划重点:

⦁ Hugging Face研究人员利用伪标记创建了一个庞大的开源数据集,用于提炼Whisper模型的较小版本,称为Distil-Whisper

⦁ Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。

⦁ 自动语音识别(ASR)系统已达到人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。

站长之家(ChinaZ.com)11月9日 消息:Hugging Face研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集,使用伪标记的方法,提炼出了Whisper模型的较小版本,称为Distil-Whisper。

声音 音频

图源备注:图片由AI生成,图片授权服务商Midjourney

Whisper语音识别变压器模型是在68万小时的嘈杂互联网语音数据上进行了预训练。它包括基于变压器的编码器和解码器组件,在零调优的情况下取得了竞争激烈的结果。而Distil-Whisper是通过使用伪标记进行知识提炼得到的紧凑版本。

Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。这项研究引入了一种针对语音数据的大规模伪标记方法,这是一个尚未充分开发但颇具前景的知识提炼途径。

自动语音识别(ASR)系统已经达到了人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。Whisper作为一个大型预训练ASR模型,在各种数据集上表现出色,但在低延迟部署方面可能更实用。而知识提炼在压缩自然语言处理变压器模型方面已经得到了有效应用,但在语音识别中的运用尚未得到充分探讨。

与原始 Whisper 模型相比,源自知识蒸馏的 Distil-Whisper 显着提高了速度并减少了参数,同时在具有挑战性的声学条件下保持了弹性。它的加速速度提高了5.8倍,参数减少了51%,在零样本场景下的分布外测试数据上实现了不到1% 的 WER。distil-medium.en 模型的 WER 稍高,但直接推理能力提高了6.8倍,模型压缩率提高了75%。Whisper 模型在长格式音频转录中容易出现幻觉错误,而 Distil-Whisper 可以减轻这些错误,同时保持有竞争力的 WER 性能。

Distil-Whisper 是通过知识蒸馏实现的 Whisper 模型的紧凑变体。这种创新方法在速度和参数减少方面产生了显着的好处,与原始 Whisper 模型相比,Distil-Whisper 速度更快,参数更少。尽管 WER 稍高,但 distil-medium.en 模型提供了更直接的推理和实质性的模型压缩。

项目网址:https://github.com/huggingface/distil-whisper

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 致态TiPlus7100s固态硬盘正式发布,性能全面跃迁

    2025年11月10日,致态发布TiPlus7100s固态硬盘。作为TiPlus7100的升级版,它采用长江存储新一代晶栈®Xtacking®4.0架构闪存颗粒,顺序读取速度高达7400MB/s,写入速度达6900MB/s。随机读写性能显著提升,最高达1500K IOPS,较上一代提升66%-114%。新品针对游戏玩家与专业用户,优化游戏加载、大文件读写及视频编辑等场景体验,并提供1TB/2TB/4TB三种容量版本,已在京东旗舰店开售。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • 小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

    小米手表S4 eSIM版与S4 Sport版正式上线,用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放,其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接,并在手表设置中开启移动网络开关,待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中,未来将陆续开放服务。

今日大家都在搜的词: