首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI发布升级版ASR模型Whisper3,计划开放API

2023-11-07 15:00 · 稿源:站长之家

划重点:

- OpenAI在开发者日发布了一系列开源模型,其中包括升级版的自动语音识别模型Whisper3

- Whisper3具备多语言支持,可将音频内容转录成文本,还具备独特的时间戳功能,适用于制作字幕。

- OpenAI计划未来向用户开放Whisper3的API,以推动语音处理应用的发展。

站长之家(ChinaZ.com)11月7日 消息:在OpenAI的开发者日活动中,该人工智能初创公司发布了一系列开源模型,其中包括了升级版的自动语音识别(ASR)模型——Whisper3。这一模型具备多语言支持,可以将音频内容快速准确地转录成文本,并具备独特的时间戳功能,使其适用于制作字幕等应用。

image.png

最初,Whisper模型主要针对英语应用,但随着时间的推移,它经过升级,已经支持多种语言,尽管具体支持的语言并未明确提及。该模型以宽松的许可协议在GitHub上开源,因此开发者可以轻松获取并使用它,被誉为目前最出色的转录工具之一。

Whisper3的工作原理涉及将音频分段成30秒的片段,然后通过编码器和解码器将其转化为文本字幕。此外,该模型还具备语言识别功能,有助于实现多语言语音转录和翻译成英语。有趣的是,最初计划将Whisper模型与ChatGPT集成,使用户能够通过语音直接与聊天机器人交流,但后来OpenAI决定将该模型直接向公众开放。

OpenAI之所以选择开源Whisper3,是为了为构建有用的语音处理应用和进一步的鲁棒语音处理研究提供基础。该模型经过了大规模数据集的训练,包括来自互联网的超过68万小时的数据,其中三分之一来自非英语来源。

OpenAI计划未来将Whisper3的API向用户开放,这将为开发者和研究人员提供更多机会,以创造创新的语音处理应用,推动语音技术的发展。

举报

  • 相关推荐
  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • 腾讯混元图像3.0登顶LMArena榜一

    腾讯混元图像3.0模型发布仅一周,即在全球26个顶尖大模型中脱颖而出,登顶LMArena权威榜单首位,成为AI生图领域新王者。其成功得益于三大核心优势:能运用知识推理生成有逻辑内涵的图像;精准实现中英文长文本及细节标注的渲染;兼具真实质感与审美把控。作为开源模型,混元系列已构建覆盖多模态的技术生态,社区衍生模型超3000个,其中混元3D模型下载量超260万次,是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • 京东推出AI购物APP京犀:帮你选出最心仪商品

    9月25日,2025京东全球科技探索大会在京开幕。京东宣布未来三年将持续加大投入,推动人工智能技术与实体产业深度融合,目标构建覆盖全产业链的万亿级AI生态体系。作为战略落地的关键一步,京东正式推出新一代购物与生活服务超级入口“京犀”App,通过AI技术重构消费体验,引发行业高度关注。该应用将AI深度嵌入购物全流程,基于用户行为与商品特征精准理解需求,智能推荐商品并优化结算路径,实现“无感式”顺畅下单。平台整合餐饮、票务、住宿等高频生活服务场景,用户通过语音指令即可完成全流程操作。此次将AI能力全面开放至消费端,标志着京东从“供应链技术提供商”向“生活服务生态构建者”的角色升级。

  • 恒利泰耦合器:省38%,PIN对PIN替换进口

    成都恒利泰科技公司旗下品牌HenryTech专注于射频元器件,拥有20多条产品线,覆盖LTCC/LC滤波器、功分器、巴伦变压器等2000多个型号。产品广泛应用于通信、军 事、航空航天、高铁、医疗及智能交通等领域。公司以高性价比替代国际品牌,其75Ω定向耦合器在5MHz-1.2GHz频段实现低插损、高方向性,典型型号H3-MACP-011051在2024年某医院5G室分改造中因价格低38%被采纳,满足24小时到货�

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 千亿AI玩具市场:当IP被AI“唤醒”,玩具厂商如何开辟新赛道?

    过去两年AI技术热度飙升,从ChatGPT爆发到谷歌、Meta频发新一代大模型,AI已切实改变生活方式。传统玩具行业正孕育智能化尝试,迪士尼与乐森机器人合作推出Mini Robot智能潮玩,通过“通用底座+可替换IP公仔”平台化设计,结合机器人技术与情感交互,打破单一产品逻辑。该产品支持动作编程、语音定制及UGC内容共享,推动玩具从“产品消费”转向“情绪消费”,成为连接虚拟与现实的新型生命体。

  • 当IP商业化进入AI时代,“智能潮玩”正在重写粉丝经济逻辑

    全球IP产业链已成为文化娱乐消费的重要增长点,2024年衍生品市场规模超3200亿美元,其中潮玩产业高速增长。传统IP商业化面临用户互动单向、消费一次性等瓶颈。智能潮玩通过"平台化硬件+可替换IP角色+UGC社区"模式,实现从静态收藏到动态共生的转型,以乐森机器人等产品为例,用户可自定义角色动作并参与内容共创,形成"硬件+内容+社区"的长期运营生态。这标志着IP商业化从单向衍生迈向双向互动,推动产业从"衍生"进入"共生"新阶段。

  • 目标安卓最强平板!荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

    荣耀MagicPad3+Pro平板即将发布,将搭载第五代骁龙8至尊版芯片,配备13.3英寸超高刷大屏,首发MagicOS 10系统,支持PC级交互能力。对标iPad Pro和小米平板Ultra,目标成为安卓阵营最强平板。预计售价约5000元,因旗舰芯片成本较高。作为参考,荣耀MagicPad 3售价2999元起。

今日大家都在搜的词: