首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

2026-03-07 11:15 · 稿源: 快科技

3月7日,据相关报道,人工智能公司OpenAI正致力于开发新一代语音交互技术,旨在显著提升人机对话的自然度与流畅性。据悉,该技术的重点突破在于,系统能够在对话过程中实时响应用户的打断行为,并动态调整后续回应,从而改变当前语音交互中常见的生硬中断现象。

目前,主流语音助手通常采用轮次应答机制,即需等待用户发言完全结束后,系统才会开始处理并生成回复。若用户在系统发言期间插入简短反馈,对话往往会被迫中止,难以实现类似人际交流的连续互动。

语音交互技术示意图

为解决上述局限,OpenAI正在研发的双向语音模型能够持续监听并解析用户的语音输入。这意味着当对话被打断时,系统可即时根据新接收的信息调整输出内容,而非固守预先生成的应答。相比之下,现有技术一旦开始输出语音,便难以在过程中融入新的交互信息。

据了解,该项技术目前尚处于内部测试阶段。有消息人士指出,早期原型在连续运行数分钟后可能出现稳定性问题,偶尔还会产生不自然的音频输出。研发团队原计划于今年上半年推出该模型,但发布时间可能会有所推迟。

行业分析认为,若语音交互的自然度能接近文本对话水平,其应用场景将大幅拓宽。毕竟对多数用户而言,语音交流比文字输入更为直观便捷。尤其在客户服务领域,这项技术有望带来显著体验提升——例如,当消费者在售后咨询中临时更改诉求时,系统可顺畅衔接后续流程,避免对话中断或逻辑混乱。

此外,消息人士透露,该模型在连接外部应用与服务方面也设计了更高灵活性。OpenAI此前曾表示,公司正探索以语音为核心交互方式的智能设备,未来可能推出可通过语音指令处理邮件查询、服务预约等任务的硬件产品。

举报

  • 相关推荐
  • 字节跳动发布全双工语音大模型Seeduplex!豆包率先接入:打电话可边听边讲

    字节跳动正式推出原生全双工语音大模型Seeduplex,基于边听边说”的全新架构,彻底打破传统AI语音交互一问一答”的局限,实现自然实时对话。 目前Seeduplex已在豆包App全量落地,成为行业内首个规模化应用的全双工语音大模型。 Seeduplex的核心突破的是改变了传统半双工听完再说”的交互模式,真正实现了听与说的同步处理,其中两大核心能力得到重点突破: 精准抗干扰:

  • 淘宝闪购上线商家端AI语音助手:可查询订单、开具发票

    近日淘宝闪购面向餐饮商家的AI Agent入口AI店铺助手”正式上线语音搜索功能,成为行业内首个支持语音指令直接调起执行窗口、完成复杂操作闭环的商家端AI服务。 该功能深度融合阿里巴巴百炼大模型的流式语音识别能力、千问大模型的语义理解能力,以及端侧唤醒与意图解析的全链路技术,实现了从信息检索”到一说即办”的跨越。 商家通过语音即可完成订单查询、商品�

  • 全网播放量破亿的AI短片《纸手机》:可灵AI与中国式思念的一次双向奔赴”

    清明前夕,AI短片《纸手机》全网刷屏。故事讲述小男孩为怀念逝去的奶奶,用15元买“纸手机”想与奶奶视频通话。纸扎店老板用善意的谎言,以纸板手机和“信号不好”等借口温柔圆梦。短片由可灵AI生成,创作者杨选、李婷仅用三天完成。作品以孩童视角重新定义死亡:亲人不是永别,而是“去了很远的地方”。该片凭借真挚情感与细腻叙事,播放量破亿,被赞“最没人味的AI做出了最有人味的短片”。

  • 何止于荣光?骁龙与梅赛德斯-AMG F1车队的双向奔赴

    文章探讨了高通骁龙与梅赛德斯-AMG F1车队合作的深层意义。双方合作不仅是品牌联合,更是科技与速度的深度融合。骁龙芯片技术已渗透至F1赛事的数据传输、赛车调校、车手训练及观赛体验等各环节,以算力赋能赛场内外。这种跨越领域的协作,体现了二者对“极致”的共同追求——F1突破物理世界的性能极限,骁龙则刷新数字世界的算力边界。它们的共鸣,源于以技术奔赴突破的初心,共同诠释人类对更快、更强、更精准的永恒渴望。

  • 马斯克版微信XChat来了!但安装门槛很高:必须升级iOS 26

    埃隆马斯克旗下社交平台X的通讯应用XChat将于4月17日上线,目前已在苹果App Store开放预约。 据了解,XChat主打无广告、无追踪、全程端到端加密,应用体积约175.8MB,支持包括简体中文在内的45种语言。

  • 双向赋能!网易智企携手声网共创实时音视频与 AI Agent 数智新生态

    2026年4月7日,网易智企与声网签署战略合作协议。双方将围绕实时音视频、内容安全、AI Agent等领域开展深度合作,通过产品集成与生态共创,为企业客户提供更完善、更安全的一站式智能化解决方案。此次合作旨在结合网易智企的AI技术、数字内容安全能力与声网的实时音视频技术,在智能客服、在线教育、数字文娱等具体业务场景中深度融合,共同打造一体化产品方案,推动AI与实时互动(RTE)的融合发展。

  • OpenAI女神官宣离职了!曾被誉为GPT-4o之母

    那个给GPT-4o注入灵魂的人,走了。 近日,被业内誉为GPT-4o之母”的OpenAI高管Joanne Jang在X平台正式发文,宣布结束其在公司长达4年半的职业生涯。 作为赋予ChatGPT灵魂的关键人物,她的离去无疑为这家AI巨头的IPO之路蒙上了一层阴影。 据悉,Joanne Jang斯坦福大学应用数学与计算机科学双学士学位,计算机科学硕士学位。 她加入OpenAI时,该公司还只是一个不到200人的研究实验室

  • AI日报:企业微信正式开源 CLI;豆包跻身全球第一梯队;微软开源前沿语音AI家族VibeVoice

    本期AI日报聚焦AI领域最新动态。企业微信开源CLI项目,整合Claude、Codex等AI助手,实现办公自动化。微软开源语音AI模型VibeVoice,支持长音频处理与多人对话生成。DeepSeek突发大规模服务中断,暴露大模型厂商在算力调度与架构稳定性方面的挑战。上海发布超150款备案大模型,集聚30万AI人才,加速具身智能发展。国产模型如豆包、小米MiMo在多个领域展现竞争力,进入“实战爆发期”。万象有声平台利用AI技术解决音频制作高成本问题,推动行业升级。智元机器人实现第10000台远征A3量产下线,15个月内产能增长十倍。Runway推出Multi-Shot App,简化视频制作流程,实现AI视频“一键成片”。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • 软硬协同的力量:新芯航途X7大算力芯片释放10倍模型参数的技术解密

    新芯航途X7大算力芯片通过原生软硬协同设计,显著提升模型参数部署效率,以效率突破重构智驾芯片核心价值。该芯片专为大模型时代智驾需求定制,采用专用超大核NPU架构与创新微架构深度融合,四项关键设计共同支持10倍模型参数释放能力:专属NPU单元精准匹配大模型需求;原生软硬协同打通效率瓶颈;车载智能调度系统保障稳定运行;安全架构兼顾性能与合规。X7单芯片满足城区NOA全栈需求,支持丰富传感器接入与处理,并通过AEC-Q100可靠性验证及国际权威双认证,树立“油电同智”标杆,推动高阶智能驾驶普及。

今日大家都在搜的词: