首页 > 业界 > 关键词  > Whisper最新资讯  > 正文

Hugging Face研究人员推语音识别模型Distil-Whisper 速度提高、参数减少

2023-11-09 14:35 · 稿源:站长之家

划重点:

⦁ Hugging Face研究人员利用伪标记创建了一个庞大的开源数据集,用于提炼Whisper模型的较小版本,称为Distil-Whisper

⦁ Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。

⦁ 自动语音识别(ASR)系统已达到人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。

站长之家(ChinaZ.com)11月9日 消息:Hugging Face研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集,使用伪标记的方法,提炼出了Whisper模型的较小版本,称为Distil-Whisper。

声音 音频

图源备注:图片由AI生成,图片授权服务商Midjourney

Whisper语音识别变压器模型是在68万小时的嘈杂互联网语音数据上进行了预训练。它包括基于变压器的编码器和解码器组件,在零调优的情况下取得了竞争激烈的结果。而Distil-Whisper是通过使用伪标记进行知识提炼得到的紧凑版本。

Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性,同时减轻了长篇音频中的错觉错误。这项研究引入了一种针对语音数据的大规模伪标记方法,这是一个尚未充分开发但颇具前景的知识提炼途径。

自动语音识别(ASR)系统已经达到了人类水平的准确度,但由于预训练模型的不断增大,在资源受限的环境中面临挑战。Whisper作为一个大型预训练ASR模型,在各种数据集上表现出色,但在低延迟部署方面可能更实用。而知识提炼在压缩自然语言处理变压器模型方面已经得到了有效应用,但在语音识别中的运用尚未得到充分探讨。

与原始 Whisper 模型相比,源自知识蒸馏的 Distil-Whisper 显着提高了速度并减少了参数,同时在具有挑战性的声学条件下保持了弹性。它的加速速度提高了5.8倍,参数减少了51%,在零样本场景下的分布外测试数据上实现了不到1% 的 WER。distil-medium.en 模型的 WER 稍高,但直接推理能力提高了6.8倍,模型压缩率提高了75%。Whisper 模型在长格式音频转录中容易出现幻觉错误,而 Distil-Whisper 可以减轻这些错误,同时保持有竞争力的 WER 性能。

Distil-Whisper 是通过知识蒸馏实现的 Whisper 模型的紧凑变体。这种创新方法在速度和参数减少方面产生了显着的好处,与原始 Whisper 模型相比,Distil-Whisper 速度更快,参数更少。尽管 WER 稍高,但 distil-medium.en 模型提供了更直接的推理和实质性的模型压缩。

项目网址:https://github.com/huggingface/distil-whisper

举报

  • 相关推荐
  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 累计出货量突破100GWh,海辰储能迎来新里程碑

    2025年8月22日,海辰储能在重庆基地举办100GWh出货量纪念仪式。自2021年底出货以来,凭借创新引领、卓越服务和安全可靠三大优势及全球化布局,海辰储能快速构建核心竞争力,累计出货量突破100GWh,全球行业排名从2023年第五跃升至2024年第三,2025年上半年跻身全球第二。公司专注储能领域,通过全链条创新实现技术突破,推出全球首款千安时长时储能专用电池等领先产品,并依托智能制造和精细化运营,确保项目高质量交付。未来,海辰储能将继续以技术创新驱动全球能源绿色转型。

  • 欧税通成为TikTok Shop官方认证全品类合规TSP服务商!

    欧税通凭借出色的出海合规服务能力,正式通过TikTok Shop官方审核,成为其推荐的TSP服务商。此次认证覆盖税务合规、EPR合规、检测认证、授权代表、知识产权服务等全品类合规服务。作为跨境合规SaaS平台,欧税通以全品类覆盖和技术驱动的双轮优势,连续三年稳居中国跨境合规行业市占率第一。未来将与TikTok Shop在产品迭代、技术协同等方面展开深度合作,助力中国品牌合规出海。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • ​AI 测试引领者——Testin 云测荣膺“2025 数字中国 TOP100”

    近日,中国科学院主管的《互联网周刊》发布“2025数字中国TOP100”榜单,Testin云测与华为、大疆、阿里巴巴等企业共同入选。该榜单覆盖人工智能、智能制造、区块链等多个数字技术领域,旨在为各行业数字化转型提供技术参照。Testin云测作为AI测试服务商,凭借深厚技术积累,助力金融、汽车等行业突破质量瓶颈,提升测试效率3倍以上,成为支撑产业数字化的关键力量。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 三星携手约翰・霍普金斯应用物理实验室以新一代Peltier Cooling制冷技术荣获R&D 100 Awards

    三星电子与约翰·霍普金斯应用物理实验室(APL)合作开发的新一代Peltier制冷技术,采用纳米薄膜材料,将制冷效率提升近75%,荣获R&D 100创新大奖。该技术可应用于半导体、医疗设备、汽车电子及数据中心等领域,成果已发表于《自然·通讯》期刊。三星表示将持续投入创新研发,巩固其在下一代制冷解决方案的领先地位。

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

    华为云在2025年8月27日宣布其Tokens服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,实现单芯片最高2400TPS吞吐量和50ms低延迟,性能超越业界水平。该服务基于MaaS模式,提供多种规格选择,支持大模型和AI工具,助力企业快速开发AI应用。同时,华为云与超100家伙伴合作,深入行业场景,共建智能生态,加速各行业AI落地。

  • 推荐2025年必种草的AI一键ppt转视频创作工具

    文章介绍了三款AI工具(课件帮、Visionstory、Fliki),可将静态PPT快速转换为动态视频微课。这些工具操作简便,支持自动生成口播稿、多语言配音、智能字幕及动画效果,适用于教育、企业培训等多种场景,无需专业技能即可上手,大幅提升视频制作效率。

今日大家都在搜的词: