首页 > AI头条  > 正文

Inworld AI 推出实时 TTS-2:一款适应用户交流方式的闭环语音模型

2026-05-06 11:42 · 来源: AIbase基地

Inworld AI 近日推出了其最新的语音模型 —— 实时 TTS-2。这款模型通过 Inworld API 和 Inworld Realtime API 的研究预览版本,旨在改变传统语音 AI 的对话方式。以往,语音合成模型仅仅是将文本转换为音频,而 TTS-2则能够实时听取交流中的音频,感知用户的语调、节奏和情感状态而提供更自然的对话体验。

image.png

TTS-2的关键特点在于其闭环系统架构。与传统模型不同,它不仅仅依赖文字转录,而是直接接收交流中的实际音频。这一差异使得模型能够理解同一句话在不同情境下的含义。例如,“好吧,算了” 在沮丧的语气和轻松的语气中传达的情感大相径庭。TTS-2能够捕捉到这些情感信息,提升了对话的连贯性和真实感。

该模型配备了四大功能,进一步增强了其独特性。首先是 “语音指令” 功能,允许开发者在推理时用简单的语言提示来引导语音的表达,而非仅仅选择固定的情感标签。其次是 “对话意识”,即闭环架构让模型理解上下文。此外,TTS-2支持跨语言的语音识别和输出,用户可以在同一对话中无缝切换语言,保持声音的统一性。最后是 “高级语音设计”,允许开发者通过描述性文字生成可重复使用的声音,无需参考音频。

TTS-2的推出标志着 Inworld AI 在语音技术上的进一步突破。该模型不仅能处理高质量的音频输出,更专注于上下文意识和语音的一致性,提升了用户体验。通过这些创新,Inworld AI 希望在竞争激烈的语音 AI 市场中脱颖而出。

划重点:  

🎤 ** 实时对话 **:TTS-2通过闭环系统捕捉用户的音频,理解情感和语调。  

🌍 ** 多语言支持 **:一个声音身份可以在100多种语言中保持一致,支持中间切换。  

🛠️ ** 语音设计灵活 **:开发者可通过描述性文字生成可重复使用的声音,无需额外音频参考。

  • 相关推荐
  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • 微信大改动!未读语音由红变灰被用户疯狂吐槽 腾讯回应

    近期不少iOS用户更新微信后发现,未读语音消息的提示色由醒目的红色变为灰色,该改动引发了大量用户吐槽与热议。 灰色未读语音与已读消息视觉高度相近,用户稍不留意就会忽略未读内容,不少人反馈因此错过工作通知、亲友重要信息,长期形成的红色提醒习惯被打破,使用体验明显下降。 腾讯客服对此回应称:未读语音变灰是iOS端未读模式”功能的灰度测试,属于阶�

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 智算新纪,引航未来 国产AI智算生态创新突破(北京)交流会圆满举办

    2026年5月9日,国产AI智算生态创新突破交流会在北京举办,聚焦国产智算自主创新与场景落地。大会响应国家算力基础设施建设号召,汇聚政府、科研院所、企业等600余位代表,共同探讨技术突破与生态协同。会上成立AGC生态共同体,发布AGC系列智算产品,包括AGC-64F、AGC-64L等,旨在解决国产GPU通信瓶颈与算力损耗问题,推动国产智算从“可用”向“好用、普惠”迈进,助力数字中国建设。

  • iOS 27重磅更新:苹果允许用户自选第三方AI模型

    苹果计划在今年秋季推出的iOS 27、iPadOS 27、macOS 27中,开放Apple Intelligence底层AI模型选择权,允许用户自主选用第三方AI服务,覆盖Siri、写作工具、图像生成等核心功能。 此前,苹果在2024年推出Apple Intelligence平台,仅接入ChatGPT作为唯一第三方AI模型。 iOS 27将通过名为Extensions(扩展)的机制,打破这一独占格局,用户可在设置中选择已安装并适配的AI模型服务商,系统会提示�

  • 小米MiMo-V2.5语音模型正式发布:一句话生成声音、克隆真人音色

    今日,小米正式发布MiMo-V2.5语音模型,带来MiMo-V2.5-TTS系列与MiMo-V2.5-ASR。 这是一套面向Agent时代的全链路语音模型系列,覆盖识别与合成两大核心能力,让语音的输入与输出都可以被语言自由调度。 在语音合成方面,MiMo-V2.5-TTS系列提供三大模型,分别对应不同创作场景: 首先是MiMo-V2.5-TTS,内置多款高质量精品音色,经过专业调优,发音自然、情感贴合,并支持语速、情绪�

  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

今日大家都在搜的词: