首页 > 业界 > 关键词  > 语音转文本最新资讯  > 正文

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

2025-03-21 08:46 · 稿源:数字生命卡兹克公众号

OpenAI最近总是喜欢搞突袭。昨晚11点的时候突然发了一个预告,4秒钟的音频的大概意思,就是太平洋时间10点我们发个产品。然后就在北京时间凌晨1点,开了一场直播,发了一些新玩意。总结一下就是:2个比Whisper更好的语音转文本的STT模型:gpt-4o-transcribe和gpt-4o-mini-transcribe

......

本文由站长之家合作伙伴自媒体作者“数字生命卡兹克公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • sora正式停服,国内版天空AI视频生成模型发布

    Sora宣布停服后,国内“天空AI”视频生成大模型正式发布。该模型由温州专帮信息科技推出,支持文本、图片生成逼真视频,核心亮点是用户无需GPU服务器,用家庭或办公电脑即可完成算力,成本几乎为零。目前发布三个版本:手机版、单机版和多用户商用版,并支持OEM贴牌、私有化部署等技术服务,实现低成本、高效率的视频创作。

  • 现场没看够?一文“云”逛智微智能AI全栈产品发布会硬核展区

    近日,智微智能举办“智启·万象”AI全栈产品发布会,展示覆盖感知AI、生成式AI、代理AI到物理AI的技术广度,以及通用与专用型产品的纵深布局。展区亮点包括:基于Jetson平台的视觉AI方案、支持大模型推理的SYS系列AI服务器、搭载JWiClaw平台的智能体工作站、人形机器人控制器及智元灵犀X2机器人等。此外,AI PC、智慧教育终端、工业机器视觉及穿戴式AI产品也悉数亮相,体现AI从概念走向现实,赋能千行百业智能化升级。

  • 微信大改动!未读语音由红变灰被用户疯狂吐槽 腾讯回应

    近期不少iOS用户更新微信后发现,未读语音消息的提示色由醒目的红色变为灰色,该改动引发了大量用户吐槽与热议。 灰色未读语音与已读消息视觉高度相近,用户稍不留意就会忽略未读内容,不少人反馈因此错过工作通知、亲友重要信息,长期形成的红色提醒习惯被打破,使用体验明显下降。 腾讯客服对此回应称:未读语音变灰是iOS端未读模式”功能的灰度测试,属于阶�

  • 微信又有新功能 网友:好用 长截图、发语音等上线

    长期以来,电脑端微信在操作便捷性上一直被用户吐槽,不少功能不得不依赖手机端完成。不过这一局面正在改变,微信电脑版近日推送了4.1.9版本更新,一口气上线了多项贴近日常使用的实用功能。 此次更新中最受关注的当属滚动长截图功能。过去在电脑上想要截取一篇长文章或一段完整的聊天记录,往往需要分多次截屏,再手动拼接,过程繁琐且容易出错。新版本上线后�

  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • 微信PC版大更新:长截图、发语音、表情连发都来了

    微信电脑版4.1.9版本更新,新增滚动长截图功能,用户只需截图后选择滚动截图并滑动鼠标滚轮,即可完整保存长文章。同时支持直接发送语音,点击话筒图标或按Alt键即可说话,快捷键可自定义设置。表情输入也更便捷,选择后按方向键可快速复制发送,无需重复点选。这些实用功能贴近日常需求,更新后即可使用,让办公聊天更省事。

今日大家都在搜的词: