首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI宣布开源多语言语音识别系统Whisper

2022-09-22 14:45 · 稿源: cnbeta

尽管包括 Google、亚马逊和 Meta 在内的科技巨头,都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域,语音识别仍是一个颇具挑战性的话题。好消息是,今日 OpenAI 隆重地宣布了 Whisper 的开源 —— 可知作为一套自动语音识别系统,官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。

OpenAI 表示,Whisper 的不同之处,在于其接受了从网络收集的 68 万小时的多语言和“多任务”训练数据,从而提升了该方案对独特口音、背景噪声和技术术语的识别能力。

官方 GitHub 存储库上的概述称:

Whisper 模型的主要目标用户,是研究当前模型稳健性、泛化、能力、偏差和约束的 AI 研究人员。

与此同时,它也很适合作为面向开发者的自动语音识别解决方案尤其是英语语音识别。

感兴趣的朋友,可以从托管平台上下载 Whisper 系统的多个版本,其模型在大约 10 种语言上展现出了强大的 ASR 结果。

此外假如在某些任务上加以微调的话,它们还有望在语音活动检测、讲述者分类等应用场景下表现出额外的能力。

1.png

架构示意

遗憾的是,Whisper 尚未在相关领域得到强有力的评估、且模型也有其局限性 —— 有其在文本预测领域。

由于该系统接受了大量“嘈杂”的数据训练,OpenAI 决定提前给大家打一剂预防针,警告称 Whisper 可能在转录中包含实际上未讲述的单词。

原因可能是 Whisper 既试图预测音频中的下一个单词、又试图转录音频本身。

2.png

流程示例

此外 Whisper 在不同语言场景下的表现也不大一致,尤其涉及在训练数据中没有很好被代表的语言的讲述者时,其错误率也会更高。

不过后者在语音识别领域早已不是什么新鲜事,即使业内首屈一指的系统,也一直受到此类偏差的困扰。

参考斯坦福大学在 2020 年分享的一项研究结果 —— 相较于黑人,来自亚马逊、苹果、Google、IBM 和微软的系统,针对白人用户的错误率要低得多(大约 35%)。

3.png

Whisper 有约 1/3 的音频数据集为非英语

即便如此,OpenAI 还是认为 Whisper 的转录功能,可被用于改进现有的可访问性工具。其在 GitHub 上写道:

尽管 Whisper 模型不适用于开箱即用的实时转录,但其速度和大小表明,其他人可在此基础上构建近乎实时的语音识别和翻译应用程序。

建立在 Whisper 模型之上的有益应用程序,其价值切实地表明了这些模型的不同性能,有望发挥出真正的经济影响力。

我们希望大家能够将该技术积极应用于有益目的,使自动语音识别技术更易获得改进、让更多参与者能够打造出更负责任的项目。

在速度和准确性的双重优势下,Whisper 将允许对大量通信提供可负担得起的自动转录和翻译体验。

举报

  • 相关推荐
  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • “全网最像夫妻”回应被建议测DNA:做过婚检

    近日抖音账号为广东土夫妇”的一对夫妻走红网络。 视频中的这对夫妻戴着同款假发,穿着同款衣服,被网友称为全网最像夫妻”。有网友表示比双胞胎还像”,还有网友建议去验个DNA”。 对此,当事人回应称两人在领证时做过婚检,应该会检查到这一块。 研究显示,夫妻相处越久,面部特征就会

  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

今日大家都在搜的词: