Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

2024-05-30 17:42 · 稿源：站长之家

站长之家(ChinaZ.com) 5月30日消息: 据来自 Cartesia 的最新消息，他们今天发布了 Sonic，这是他们在构建实时多模态智能时代的第一步。Sonic 是一个极速的生成语音模型和 API，拥有令人惊叹的低延迟（仅为135毫秒模型延迟），栩栩如生的声音效果，目前只支持英文。

Sonic 采用了全新的状态空间模型架构，有效地建模高分辨率数据，例如音频和视频。在语音方面，经过参数匹配和优化的 Sonic 模型在与广泛使用的 Transformer 相同的数据集上训练，显著提高了音频质量，包括降低20% 的困惑度、降低2倍的单词错误率以及提高1分的 NISQA 质量。

此外，Sonic 具有更低的延迟、更快的推理速度以及更高的吞吐量，为用户带来更出色的体验。Cartesia 还提供了 Web Playground 和低延迟 API，用户可以立即开始体验 Sonic 的强大功能。

创始人在斯坦福大学攻读博士学位期间开创了状态空间模型，为 Sonic 的研发奠定了基础。这种模型是第一个次线性架构，可以在语言和音频等重要模态上匹配 Transformer，同时释放潜在的无限上下文、恒定的状态大小和高吞吐量的推理。

Cartesia 表示，他们很期待与社区一起探讨替代架构，并将很快分享更多信息。如果您也对使智能更快、更便宜、更易获取感兴趣，欢迎通过邮箱 join@cartesia.ai 联系他们。

在这个快速发展的多模态智能时代，Cartesia 的 Sonic 将引领行业，为用户带来全新的体验和可能性。立即体验 Sonic，探索实时多模态智能的未来!

官方体验地址：https://play.cartesia.ai/

（举报）

相关推荐

关键词：

重新定义开放式耳机通讯体验：开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机，于Kickstarter震撼上线

OpenRock推出全球首款可拆卸磁吸开放式耳机Link20，搭载独家MagShield™ FusionTech磁吸连接技术，解决传统开放式耳机通话质量差的痛点。产品采用人体工学近场音孔设计，配合5麦克风阵列与AI降噪系统，实现高清通话与Hi-Fi级音质。单耳仅重9克，支持IPX7防水与13小时续航，现已在Kickstarter开启首发预售，早鸟价105美元。

OpenRock Link20 磁吸咪杆耳机
RTE&对话式 AI 产品论坛开启报名探索人机交互的下一代范式

生成式AI与多模态大模型推动实时互动行业变革，从人人互动迈向人机、人物交互。Convo AI & RTE2025大会将于10月31日在北京举办，聚焦AI与RTE深度融合，设20余场论坛探讨对话式AI场景实践。声网将发布对话引擎2.0及零代码智能体工厂，商汤、MiniMax等企业将分享数字人、语音大模型等创新应用。大会免费报名，扫描文章二维码即可参与。

生成式AI 多模态大模型实时互动
既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破，从传统2D感知升级为3D语义感知，赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合，让机器人精准构建三维地图，识别家居属性，实现主动避障与个性化服务。同时，结合低算力混合模型与情感交互功能，机器人可感知用户情绪、提供安全防护，并支持宠物看护等场景拓展，从“工具”升级为有温度的“家庭伙伴”，真正满足复杂家庭需求。

3D感知多模态交互陪伴机器人
云栖大会｜每日互动CAIO:个知·智能工作站“看得见的安全，联得通的时间”

每日互动在云栖大会推出AI产品"个知·智能工作站"，通过"本地小模型+云端大模型"混合部署模式，解决企业数据孤岛、安全顾虑等AI落地难题。该产品基于D-M-P三层架构，支持多源数据接入与智能处理，内置写作助手、会议纪要等原生应用，可10分钟完成深度研究报告。现场演示显示，智能招聘工具能使简历筛选耗时缩短80%，面试通过率提升50%。公司旨在通过安全可控的AI方案，推动人工智能在千行百业的普惠应用。

云栖大会 AI创新产品大模型+大数据
客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
寒武纪深耕智能芯片技术与软件生态助力大模型应用落地

良好的软件环境能降低AI应用开发门槛，增强用户粘性，对AI芯片发展至关重要。寒武纪专注AI芯片研发，掌握处理器架构、SoC设计等硬件技术及编程框架、编译器、驱动等软件技术。通过芯片、硬件板卡、基础软件三大团队协同，为产品提供全链条技术支持，并构建开发者生态。未来将通过开放生态推动云计算、金融、医疗等行业的智能化升级，以市场为导向保持技术领先。

人工智能芯片软件平台大模型应用
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

在2025年vivo开发者大会上，vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力，基于轻量、模块化设计，将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载，升级智慧体验。系统内置视觉、听觉及感知唤醒等能力，原生支持AI识别、降噪等功能，并引入蓝心智能，支持问答、语音识别等。流畅度方面，搭载蓝河流畅引擎，实测资源消耗降低60%，绘制效率提升36%，调度切换开销下降58%，资源占用减少40%。

vivo 蓝河操作系统3 BlueOS
第一！世纪华通旗下Century Games登顶全球Top50手游商

知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单，世纪华通旗下Century Games从去年第7位跃居榜首，创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察：既实现《Whiteout Survival》等长线产品稳定运营，又凭借《Kingshot》等新作打造跨品类爆款，形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率，构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元，同比增长85.5%，印证了其全球化布局与长效发展潜力。

全球游戏公司排名 Century Games

今日大家都在搜的词：

热文

3 天
7天

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

重新定义开放式耳机通讯体验：开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机，于Kickstarter震撼上线

RTE&对话式 AI 产品论坛开启报名探索人机交互的下一代范式

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

云栖大会｜每日互动CAIO:个知·智能工作站“看得见的安全，联得通的时间”

客服回应iPhone通话语音隔离：是“语音突显”功能

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

寒武纪深耕智能芯片技术与软件生态助力大模型应用落地

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

第一！世纪华通旗下Century Games登顶全球Top50手游商

今日大家都在搜的词：

热文

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

Windows 10即将“停服”上热搜微软建议用户升级Win 11

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

京东回应下场造车：不直接涉及制造三方联合推出

小米第三款车路测谍照曝光雷军测试小米汽车现身盘龙古道

小红书崩了上热搜客服回应：已在尽快处理

谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

网易云音乐回应登入李玟账号：已与网友新手机号解绑

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

Windows 10即将“停服”上热搜微软建议用户升级Win 11

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

站长商机