首页 > AI头条  > 正文

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

2025-03-21 09:01 · 来源: AIbase基地

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe

QQ_1742519104437.png

目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。同时,OpenAI也提供了一个名为OpenAI.fm的演示网站,供个人用户进行初步体验。

QQ_1742518825138.png

核心功能大揭秘

那么,这款备受期待的 gpt-4o-transcribe 究竟有何独到之处呢?简单来说,它可以看作是OpenAI两年前发布的开源语音转录模型Whisper的升级版,目标是提供更低的文字错误率更强大的性能

QQ_1742519122970.png

根据OpenAI官方数据显示,在行业标准的33种语言测试中,gpt-4o-transcribe的错误率相较于Whisper有了显著下降,尤其在英语方面,错误率更是低至2.46%!这对于需要高精度语音转录的场景来说,无疑是一个巨大的进步。

更值得一提的是,这款新模型在各种复杂环境下都能保持出色的性能。无论是身处嘈杂的环境,面对不同的口音,还是处理快慢不一的语速,gpt-4o-transcribe都能提供更准确的转录结果,并且它还支持超过100种语言

为了进一步提升转录的准确性,gpt-4o-transcribe还加入了噪声消除语义语音活动检测技术。

OpenAI的技术人员Jeff Harris解释说,后者可以帮助模型判断说话者是否讲完了一个完整的想法,从而避免断句错误,提高整体的转录质量。此外,gpt-4o-transcribe还支持流式语音转文本,开发者可以持续输入音频并实时获得文本结果,使对话感觉更加自然。

需要注意的是,gpt-4o-transcribe模型家族**目前并不具备“说话人分离”(diarization)**的功能,也就是说,它主要专注于将接收到的音频(可能包含多人的声音)统一转录成文本,而不会区分和标记不同的说话人。

虽然这在某些需要区分发言人的场合可能有所限制,但其在提高整体转录准确性方面的优势依然显著。

开发者先行:API接口已开放

目前,gpt-4o-transcribe已经通过OpenAI的API接口提供给开发者使用。这意味着,开发者可以快速将这一强大的语音转录能力集成到自己的应用程序中,为用户带来更便捷的语音交互体验。

据OpenAI在直播中演示,对于已经基于GPT-4o等文本大模型构建的应用,只需要大约九行代码 就能轻松添加语音交互功能。例如,电商应用可以快速实现语音回复用户关于订单信息的咨询。

不过,OpenAI方面也表示,考虑到ChatGPT在成本和性能方面的特殊需求,这些新模型暂时不会直接应用于ChatGPT,但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者,OpenAI推荐使用其Realtime API中的语音到语音模型。

凭借其强大的语音转录能力,gpt-4o-transcribe有望在多个领域大显身手。OpenAI认为,例如客户呼叫中心会议纪要自动生成以及AI驱动的智能助手等场景都非常适合应用这项技术。一些已经体验过新模型的公司也反馈称,OpenAI的音频模型显著提升了语音AI的性能。

当然,OpenAI也面临着来自其他语音AI公司的竞争,例如ElevenLabs推出的Scribe模型也具备较低的错误率和说话人分离功能。此外,Hume AI的Octave TTS模型则在发音和情感控制方面提供了更精细的自定义选项。开源社区也有不断涌现的先进语音模型。

根据您提供的源,以下是 OpenAI 新语音模型的定价信息以及一些相关的竞品价格:

模型API定价:

  • gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00,约合每分钟 $0.006
  • gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00,约合每分钟 $0.003
  • gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,约合每分钟 $0.015

竞品模型定价:

  • ElevenLabs Scribe: 每小时音频输入的定价为 $0.40,约合每分钟 $0.006
  • Orpheus3B: 基于 Apache2.0许可开源,开发者可以免费使用,但需要自备相应的硬件或云服务器。

需要注意的是,不同模型的计费方式可能存在差异(例如,基于 token 数量、时长等),因此直接比较价格时需要考虑这些因素。

OpenAI此次发布的gpt-4o-transcribe等新语音模型,在语音转录领域展现出了强大的实力和潜力。虽然目前主要面向开发者,但其在提升语音交互体验方面的价值不容忽视。未来,随着技术的不断发展,我们或许能看到更多令人惊喜的语音AI应用涌现。

网站:https://top.aibase.com/tool/openai-fm

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

  • 相关推荐
  • 准确率92%!苹果新模型可通过行为模式预测怀孕

    据媒体报道,苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院,在健康预测领域取得重大突破,推出基于行为数据的可穿戴模型WBM(Wearable Behavior Model)。 这项研究标志着健康监测从传统生物指标(如心率、血氧)向行为数据分析的拓展,为疾病预测提供了全新视角。 研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型,使其能够从步数、活动能力等高层次行为

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 一键解决无障碍出行,华人创立的Transreport拿到了英国“国王企业奖”

    伦敦无障碍出行服务公司Transreport荣获2025年度英国"国王企业奖"创新类奖项。该公司由华人创业者沈星杰2015年创立,通过移动App和后台系统为残障人士提供一键预约高铁、机场等场所的照护服务。其创新技术已支持超700万次援助请求,拥有全球100万用户。目前正拓展日本、中东市场,与阪急集团合作将于2025年在日本推出服务。该奖项由英国国王亲自颁发,表彰其在推动交通系统现代化和无障碍出行领域的突出贡献。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • OpenAI核心模型采用物理隔离:为防窃密 上网需明确许可

    据媒体报道,OpenAI近期全面升级其安全体系,以应对企业间谍活动风险。此次升级的核心举措之一是推出信息隔离”政策,旨在严格限制员工对敏感算法和新产品的访问权限。 例如,在开发o1模型期间,OpenAI规定只有经过严格审查并获得相应权限的团队成员,才可在公共办公区域讨论相关细节。 同时,公司还采取了多项物理与网络安全强化措施:将核心专有技术存储在隔离�

  • A日报:Trae 2.0 正式升级 SOLO 模式;通义发布Qwen3新模型;智谱AI重磅推出Zread

    本期AI日报聚焦多项AI领域突破:1)Trae 2.0推出SOLO模式,实现AI全流程自主开发;2)阿里通义发布Qwen3-235B大模型,支持256K文本处理;3)智谱AI推出Zread工具,一键转换GitHub项目为使用手册;4)零一万物发布万智企业大模型平台2.0及定制Agent方案;5)字节跳动推出通用机器人模型GR-3,具备高精度操作能力;6)Pika推出AI视频特效APP,降低创作门槛;7)Dia浏览器将上线AI驱动的"分身鼠标&

  • 小红书支持发布语音评论 官方回应:内测中

    近日,小红书平台悄然上线语音评论功能引发网友广泛关注。部分用户在评论区发现可发送语音消息的新选项,但更多用户反馈其App更新后仍未获得该功能入口。 据小红书官方客服回应,语音评论功能目前处于内测阶段,仅向特定用户群体开放测试权限,尚未支持主动申请开通。 这一说法与用户反馈的“部分账号可见”现象相吻合,平台或通过分层测试评估功能稳定性与用�

今日大家都在搜的词: