首页 > AI头条  > 正文

苹果新Speech API转录速度惊人,胜过OpenAI Whisper 55%

2025-06-18 11:09 · 来源: AIbase基地

科技媒体 macstories 发布了一篇关于苹果新推出的 Speech API 的博文,引发了业界的广泛关注。通过对一段时长34分钟、大小达7GB 的4K 视频文件进行转录测试,结果显示,苹果的新 Speech API 仅耗时45秒,速度远超其他同类工具。相较之下,OpenAI 的 Whisper 转录时间为101秒,苹果的技术优势可见一斑,提升了约55% 的效率。

image.png

苹果在2025年全球开发者大会 WWDC 上首次宣布了这一 Speech 框架,框架中包含了 SpeechAnalyzer 和 SpeechTranscriber 两款模块。这一技术的推出,标志着苹果在语音处理领域的进一步突破,尤其是在速度和准确性方面的提升。

在具体的测试中,媒体使用了基于新模块开发的 Yap 应用进行转录。通过对比不同工具的表现,Yap 以45秒的快速转录时间,成为了市场上表现最优的选择。相对而言,MacWhisper(基于 OpenAI 的 Whisper 开源语音转录模型)需要1分41秒,而 VidCap 则需要1分55秒。更早版本的 MacWhisper(V2)甚至要耗时3分55秒。

虽然所有测试工具在识别专有名词时都出现了一定误差,比如 “AppStories” 的识别,但 Yap 在本地化运算上的优势,确保了其在处理多段视频时的效率更为显著。通过计算每周处理多段视频所节省的时间,用户可以显著提高工作效率。

image.png

这项技术的快速发展,不仅为视频内容创作者提供了便利,也为后续的应用场景拓展奠定了基础。未来,随着 AI 技术的不断演进,苹果在语音识别领域可能会推出更多创新的解决方案,进一步提升用户体验。

划重点:

🌟 苹果新 Speech API 转录34分钟4K 视频仅需45秒,速度超越竞争对手。  

⏱️ 与 OpenAI Whisper 相比,苹果技术提升了约55% 的效率,表现显著。  

📈 本地化运算优势使 Yap 在多段视频处理上效率更高,为用户节省大量时间。

  • 相关推荐
  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 奥尔特曼称自己不适合担任CEO OpenAI上市后或卸任

    OpenAI首席执行官Sam Altman近日接受采访时透露,虽然公司正推进数万亿美元级的计算基础设施投资计划,但他对上市后继续担任CEO持保留态度。 Altman坦言,尽管主导着OpenAI多项战略级项目,但自认缺乏上市公司CEO所需的核心管理素质与市场敏感度。 他特别强调,上市企业领导者需具备应对复杂投资者关系与监管环境的综合能力,而自己可能并非最优人选。

  • DeepSeek崩了引热议 官方深夜回应:网页/API已恢复

    8月11日,DeepSeek服务突遭全面宕机,API接口、网页平台以及App均无法访问或响应。 许多网友也通过微博话题#DeepSeek崩了#反馈服务异常。

  • CCF HPC China 2025 | KunLun HPC解决方案赋能多行业创新升级 并获全国产异构创新HPC解决方案奖

    8月13-16日,第21届CCF全国高性能计算学术年会在鄂尔多斯召开。本届大会以"绿动计算 超智融合"为主题,汇聚顶尖学术阵容,展示全产业链成果与前沿趋势。河南昆仑技术有限公司重点展示双生态硬件平台、极致性能软件平台、应用迁移调优服务等HPC全栈解决方案。其KunLun HPC解决方案实现100%国产化,兼容x86设备,具备东西方双生态兼容、高性能、高能效等五大特点,并获全国产异构创新HPC解决方案奖。昆仑技术同期发布KunLun V2系列服务器产品,助力科研转化和行业智能化升级。多位专家在主题论坛分享国产超算软件生态建设经验,强调需持续投入构建自主可控的超算软件生态。昆仑技术表示将持续深耕高性能计算领域,推动行业向智能高效方向发展。

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • GPT-5横空出世:API最低0.40美元,人人享“博士级智慧”

    OpenAI正式发布新一代旗舰模型GPT-5,CEO奥尔特曼称其智能水平如同与博士级专家对话。该模型在写作、编码、医疗等核心领域表现突出,幻觉率大幅降低80%,输出token数量减少50%-80%。GPT-5系列包含多个版本,其中GPT-5nano的API价格低至0.4美元/百万token,极具竞争力。基准测试显示GPT-5以68分位居榜首,超越Grok-4等对手。OpenAI同时宣布向所有用户开放使用,并计划升级语音模式,探索

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • 一图了解小米澎湃OS近期升级:苹果Mac也能用小米手机App

    今日,小米澎湃OS发布澎湃OS2近期升级功能一览,包括小米AI眼镜拍照、视频通话支持跨设备调用镜头、苹果Mac跨生态互联、超级小爱记忆、相册编辑界面优化等。 部分升级功能如下: 小米AI眼镜进行微信、QQ等应用视频通话时,支持开启跨设备相机,调用眼镜摄像头、分享第一视角。 小米手表S4 14周年纪念版支持使用遥控拍照功能,用手表预览相机画面。 小米开放式耳机Pr

  • 苹果iOS 26开发者预览版Beta 7发布:美版Apple Watch血氧回归

    今天凌晨,苹果发布了iOS 26开发者预览版Beta 7,虽然已经处于测试后期,但依然加入了新功能。 首先是美版Apple Watch的血氧检测功能回归,这与上周的iOS 18.6.1正式版同步,为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。 从2024年1月18日开始,因美国国际贸易委员会(ITC)认定苹果部分Apple Watch血氧传感器专利侵权,所有在美国销售的Apple Watch Series 9�

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

今日大家都在搜的词: