首页 > 业界 > 关键词  > WhisperKit最新资讯  > 正文

WhisperKit开源!可在iPhone和Mac流畅体验实时语音转录

2024-01-31 11:40 · 稿源:站长之家

划重点:

- WhisperKit是Argmax公司推出的开源项目,旨在实现苹果芯片上的实时语音转文本,通过多项优化提高性能。

- 该项目采用MIT许可证,提供Swift包、iOS和macOS示例应用以及Python工具,为开发者提供最大便利。

- WhisperKit的设计原则包括灵活性、可扩展性、可预测性,以及专注于实时性能。

站长之家(ChinaZ.com)1月31日 消息:由于对Whisper推理在生产中的迅速增长需求,Argmax公司决定将其作为首个项目,并于宣布将WhisperKit项目以MIT许可证的形式开源,进入beta测试阶段。

WhisperKit是一个用于实现在设备上进行语音推理的开源工具,旨在通过最小的摩擦和最大的性能提高,使开发者能够轻松改进和部署快速、免费且几乎无错误的翻译和转录服务。

简单的说,WhisperKit可以在 iPhone 上运行的Whisper实时推理软件,可以实时将声音转成对应的文字,想做类似实时翻译工具的可以关注一下。

image.png

该项目提供了Swift包,只需两行代码即可在应用中实现Whisper推理,同时还附带了iOS和macOS的示例应用,方便开发者测试。为了优化和评估Whisper在Mac上的性能,还提供了Python工具。

WhisperKit的设计原则包括灵活性、可扩展性、可预测性和自动部署。该项目的设计使得开发者能够自由组合或隔离GPU和神经引擎的利用,以实现最佳的能效和最低的延迟。同时,WhisperKit被模块化为Swift协议,通过实现自定义行为的协议扩展,降低了扩展的难度。

image.png

在实现性能方面,WhisperKit的重点是在苹果芯片上实现最低延迟和最高吞吐量。特别是针对最具挑战性的openai/whisper-large-v3变体进行了优化。通过优化音频编码器和文本解码器,WhisperKit在iPhone12到15上取得了1.85x至2.85x的速度提升。

为了实现实时性能,WhisperKit克服了Whisper不设计用于低延迟音频处理的困难。通过在语音转录过程中定期积累足够的音频,对音频进行预处理和使用优化的编码器和解码器,WhisperKit实现了实时语音转文本的目标。

除此之外,WhisperKit还通过在编译时预先计算特殊标记的KV缓存值,进一步提高了性能。这项优化使得在流式模式下每秒可处理9-15个文本标记,足以满足日常语音需求。

在稳定版发布之前,WhisperKit计划引入性能报告创建、异步批处理预测、watchOS示例应用以及Metal-based推理引擎等功能。

项目入口:https://top.aibase.com/tool/whisperkit

举报

  • 相关推荐
  • VT Markets独家分析:鲍威尔松口降息 市场将如何波动?

    美联储主席鲍威尔在杰克逊霍尔年会上释放降息信号,表示风险平衡变化可能调整货币政策立场。VT Markets分析认为,尽管劳动力市场和通胀数据推升降息预期,但市场仍存疑虑。关税对通胀影响尚未完全显现,进口商吸收成本上涨,转嫁消费者需更长时间。9月降息或成今年唯一窗口,非农与CPI数据成关键。市场展望:若数据支持降息,美元走弱、美债收益率下滑、美股上涨;反之则美元走强、美债殖利率上行、美股回调。建议关注黄金和加密货币走势。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 专业闪光迈入普及时代?唯卓仕 Spark Z3 重塑 TTL 闪光灯性价比标杆

    国产光学品牌唯卓仕推出全新Spark Z3 TTL闪光灯,仅售268元。该产品最大亮点是将专业级TTL自动闪光功能下放至亲民价位,支持智能测光与功率调节,显著降低复杂光线下的曝光难度。机身采用哑光金属质感设计,重144克便于携带,支持Type-C快充和光引闪功能。这款产品填补了低价位专业闪光灯的市场空白,有望推动入门级闪光灯市场的普及化进程。

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • ISC.AI PARK:科技博主集体打卡!AI原来可以这么“酷”

    ISC.AI2025大会8月6-7日在北京国家会议中心成功举办,以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK",吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展,集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验,机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品,直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用,推动构建更安全智能的世界。

  • 累计出货量突破100GWh,海辰储能迎来新里程碑

    2025年8月22日,海辰储能在重庆基地举办100GWh出货量纪念仪式。自2021年底出货以来,凭借创新引领、卓越服务和安全可靠三大优势及全球化布局,海辰储能快速构建核心竞争力,累计出货量突破100GWh,全球行业排名从2023年第五跃升至2024年第三,2025年上半年跻身全球第二。公司专注储能领域,通过全链条创新实现技术突破,推出全球首款千安时长时储能专用电池等领先产品,并依托智能制造和精细化运营,确保项目高质量交付。未来,海辰储能将继续以技术创新驱动全球能源绿色转型。

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • 卡萨帝AI之眼冰箱将上市,夯实高端TOP1地位

    卡萨帝9月将推出搭载“AI之眼”的鉴赏家冰箱,通过图像识别技术自动识别食材并联动氮氧智控系统精准保鲜。该产品能根据用户健康需求生成专属膳食方案,支持高血压、控糖等个性化场景。采用平嵌设计实现无缝融入橱柜,重新定义高端厨居美学。作为行业首款可定制AI健康营养冰箱,未上市已引发期待,将巩固卡萨帝在高端市场的领先地位。

  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • AI与数字化变革费率3年连降,海尔智家H1再优化0.1pct

    海尔智家2025上半年业绩逆势增长,营收1564.94亿元,同比增长10.2%;净利润120.33亿元,增长15.6%。核心驱动因素为数字化转型与AI技术应用,通过全流程降本增效,销售管理费用率连续三年下降。国内聚焦明星爆品与多品牌协同,海外坚持本土化运营,实现各区域加速增长。AI驱动的产品创新打造多个行业爆款,带动高端品牌卡萨帝增长超20%。未来将持续深化数字化变革,开拓新发展空间。

今日大家都在搜的词: