首页 > 业界 > 关键词  > Cartesia最新资讯  > 正文

Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

2024-05-30 17:42 · 稿源:站长之家

站长之家(ChinaZ.com) 5月30日 消息: 据来自 Cartesia最新消息,他们今天发布了 Sonic,这是他们在构建实时多模态智能时代的第一步。Sonic 是一个极速的生成语音模型和 API,拥有令人惊叹的低延迟(仅为135毫秒模型延迟),栩栩如生的声音效果,目前只支持英文

Sonic 采用了全新的状态空间模型架构,有效地建模高分辨率数据,例如音频和视频。在语音方面,经过参数匹配和优化的 Sonic 模型在与广泛使用的 Transformer 相同的数据集上训练,显著提高了音频质量,包括降低20% 的困惑度、降低2倍的单词错误率以及提高1分的 NISQA 质量。

image.png

此外,Sonic 具有更低的延迟、更快的推理速度以及更高的吞吐量,为用户带来更出色的体验。Cartesia 还提供了 Web Playground 和低延迟 API,用户可以立即开始体验 Sonic 的强大功能。

创始人在斯坦福大学攻读博士学位期间开创了状态空间模型,为 Sonic 的研发奠定了基础。这种模型是第一个次线性架构,可以在语言和音频等重要模态上匹配 Transformer,同时释放潜在的无限上下文、恒定的状态大小和高吞吐量的推理。

Cartesia 表示,他们很期待与社区一起探讨替代架构,并将很快分享更多信息。如果您也对使智能更快、更便宜、更易获取感兴趣,欢迎通过邮箱 join@cartesia.ai 联系他们。

在这个快速发展的多模态智能时代,Cartesia 的 Sonic 将引领行业,为用户带来全新的体验和可能性。立即体验 Sonic,探索实时多模态智能的未来!

官方体验地址:https://play.cartesia.ai/

举报

  • 相关推荐
  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • 无线游戏鼠标怎么选?2026职业选手常用低延迟轻量化鼠标推荐

    本文探讨职业电竞选手选择无线游戏鼠标的核心标准:低延迟(需低于0.125ms)、轻量化(低于60g)和高精度(如高DPI与追踪速度)。罗技GPW系列凭借LIGHTSPEED无线技术、HERO2传感器和LIGHTFORCE微动成为行业标杆。文章还针对2026年职业选手需求,推荐了五款GPW系列型号,包括旗舰性能、小手专用、右手工学、MOBA功能及高性价比版本,帮助选手根据手型、游戏类型和预算选择合适装备。

  • 浏览器端语音交互指南:如何用低代码快速集成AI语音智能体?

    本文探讨了AI时代语音交互技术的发展与应用。文章指出,AI正深刻改变生产生活方式,语音输入需求快速增长,尤其在需要双手作业的场景中,语音交互能提供无缝高效的工作流程。文章以活字格低代码开发平台为例,详细介绍了如何在浏览器端实现实时语音交互,包括通过麦克风权限获取、语音识别模型实时转写文本、并与AI大模型进行智能对话的完整方案。该方案不仅提升了交互效率和准确性,还保障了用户隐私安全。最后,文章展望了语音交互在智能家居、医疗健康、教育等领域的广泛应用前景,同时也指出了隐私保护、准确性提升和无障碍访问等面临的挑战。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • 性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

    今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。 用户只需用自然语言下指令,即可对音色�

  • 重新定义“实时在线交互”,Soul App开源实时数字人生成模型SoulX-FlashTalk

    Soul AI Lab开源实时数字人生成模型SoulX-FlashTalk,实现0.87秒亚秒级超低延迟、32fps高帧率,支持超长视频稳定生成。该模型具备“零延迟”即时反馈、高精细度全身动作合成、超长视频稳定生成等亮点,通过双向蒸馏与多步回溯自校正机制解决传统方案延迟高、画面不一致等问题。在电商直播、短视频制作、AI客服等场景提供高质量、可落地的解决方案,推动大参数量实时生成式数字人迈入具体商用阶段。

  • 京东AI付正式上线!支持语音快捷安全支付

    京东今日正式宣布入局AI支付领域,推出京东AI付”,用户凭借语音即可便捷、安全支付。 据悉,该功能搭载京东JoyAI大模型能力,适用于AI助手、智能终端等多种软硬件载体。 用户通过简单的语音指令即可完成支付全流程,例如在支付过程中直接语音切换绑定的银行卡。

  • 雷神加速器:以技术突破“延迟”,让世界零“时差”对战

    文章介绍了雷神加速器如何解决网络延迟问题,提升游戏体验。它通过AI智能路由、金融级内网专线等技术,优化数据传输路径,降低延迟与丢包率,确保各类游戏场景流畅运行。其“分钟计费,时长可暂停”模式尊重用户选择权,打破设备壁垒实现全平台互通。雷神已服务超1亿用户,获多项行业荣誉,体现了以用户为核心、创造价值的品牌理念。

  • 星辰智能体平台全新升级:构建全栈多模交互能力,赋能企业智能化转型

    星尘智能体平台升级版正式发布,推动智能体从“参数竞赛”迈向“应用落地”。平台以感知物理世界、理解复杂上下文、多模态自然沟通为核心,整合语音、视觉、运动与执行的全栈解决方案,助力智能体从“单点工具”升级为具备五官、手脚与个性的企业级“数字合伙人”。此次升级率先打通星尘智能体平台与AIUI平台,破解行业普遍存在的响应延迟、语义割裂、系统状态不同步等痛点,简化智能体与硬件设备的对接流程,改变传统研发中多接口并行对接、周期冗长的困境。企业可实现智能体一键接入语音交互,在AIUI“听懂指令、理解意图、执行动作、语音反馈”的基础上,叠加个性化交互能力与多模态感知输出,极速适配机器人、智能穿戴等各类硬件,快速落地工业、家庭、消费等多元业务场景,以更低的人力与时间成本,实现交互效率与效果的双重提升。

  • 百度发布文心大模型5.0正式版:2.4万亿参数 原生全模态建模

    今日,百度文心Moment”大会在上海召开。 大会现场,百度正式发布了文心大模型5.0正式版。 据介绍,该模型基于原生全模态建模,拥有2.4万亿参数,支持文本、图像、音频、视频等多种信息理解输出。 目前,文心5.0正式版可在百度千帆平台调用,文心一言官网、百度慧播星及文心助手等其他百度AI产品也已接入。 此前,文心5.0以1460分位列LMArena文本榜国内第一、全球第八�

今日大家都在搜的词: