首页 > 业界 > 关键词  > Cartesia最新资讯  > 正文

Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天?

2024-05-31 11:25 · 稿源:站长之家

站长之家(ChinaZ.com) 5月31日 消息:Cartesia 发布了一个名为 Sonic 的低延迟语音生成模型,该模型以其快速的推理速度和超低的延迟引起了广泛关注。Sonic 的延迟仅为135毫秒,能够生成具有逼真情感和表达能力的语音。用户只需提供10秒的录音,Sonic 即可模仿说话者的韵律、语调和声音特征,并且可以调节音调、速度、情感、发音和速度。

image.png

图片截自歸藏

Sonic模型特点:

  • 超低延迟:模型的延迟仅为135毫秒,这意味着它可以实时生成语音,非常适合聊天应用。

  • 情感表达:Sonic能够展现出人类的情感和表达能力,使对话更加自然和富有表现力。

  • 快速模仿:仅需10秒的录音,Sonic就能模仿说话者的韵律、语调和声音特征。

  • 可调节参数:用户可以调节音调、速度、情感、发音等参数,定制化语音输出。

Cartesia 的目标是打造能够在任何设备上长期运行的实时智能系统。为此,他们引入了创新的“状态空间模型”(SSM)架构,用于构建下一代基础模型。SSM 模型能够处理任意大小的语境,并且可以原生地实时处理各种形式的模态。Cartesia 的创始人 Albert 和 Karan 在过去四年中共同开发了 SSM,这是一种更高效的 AI 模型构建方法,能够像人类一样流式传输信息。

image.png

在实时对话型 AI 的开发方面,Cartesia 已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的 AI 计算平台,该平台可以解决复杂问题,为用户带来全新的体验。低延迟是构建实时智能的一大挑战,模型需要在接收到输入时立即做出响应。通过新的 SSM 架构,Cartesia 提高了高分辨率模态(如音频和视频)的生成效率和低延迟性能。实验表明,与广泛使用的 Transformer 模型相比,他们的模型在质量、推理速度、吞吐量和延迟方面都有显著改进。

使用 SSM 架构,Cartesia 训练了 Sonic 语音模型,该模型能以135毫秒的延迟生成高质量、逼真的语音。为了实现低延迟和高吞吐量,他们优化了 SSM 推理系统,从而以更低的成本提供高质量的模型。Sonic 已经发布,并提供了一个 Web Playground 和低延迟 API。用户可以在 Playground 中使用多样化的语音库进行应用程序开发,包括客户支持、娱乐和内容创作,还支持即时克隆和语音设计(如调节速度和情感)。用户也可以通过 API 访问这些功能。

Cartesia 的下一个目标是在未来一年内实现原生多模态的实时智能,不仅局限于音频领域。他们希望能够实现对任何形式的模态进行即时理解和生成,进一步推动实时智能的发展。

官网:https://top.aibase.com/tool/carteisa-sonic

试玩地址:https://play.cartesia.ai/

举报

  • 相关推荐
  • Matrixport 旗下 Cactus Custody 与 OnChain 合作,完成招银国际美元货币市场基金化上链

    新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作,将招商国际美元货币市场基金以化形式上链运营,成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点,通过链上净值计算、白名单管理等机制,为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作,推动RWA标准化发展。

  • 从“手动挡”进入“AI智能挡”:亚数TrustAsia 开启证书管理「服务化」CaaS 新时代

    随着TLS/SSL证书有效期缩短至47天,企业面临信任中断风险加剧、内部系统协同困难及预警监测缺失三大挑战。亚数TrustAsia推出新一代智能证书管理体系TrustAsia CaaS,通过自动化流程实现证书全生命周期管理,提供六大核心能力:资产发现与管理、多CA自动化签发、自动化分发部署、实时监测告警、无缝集成定制及全流程自动化,有效应对加密敏捷性需求,助力企业构建安全可信�

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 主论坛前瞻|「拥抱AI变革,点燃算网引擎」:ODCC邀您探索算网新世界

    2025年第十二届开放数据中心大会(ODCC)将于9月9-11日在北京举行。大会聚焦AI变革与算力发展,围绕算力、网络、能源、制冷、运维等全链路协同展开讨论。华为、三星、博通等企业将分享最新实践,探讨液冷技术、智能运维等关键议题。主论坛将于9月10日举行,发布年度成果并解读技术趋势。大会旨在推动算力产业标准化发展,为AI时代提供系统性解决方案。

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • 哪里找最新AI工具官网?如何快速对比ChatGPT替代品?AI工具导航指南 - AIbase

    文章探讨了在AI工具爆炸式增长的时代,用户面临的信息过载和筛选困难问题。主要内容包括:1)AI领域迭代速度远超传统软件,个人追踪信息效率低下且容易错过关键更新;2)AIbase.cn平台致力于解决这一问题,通过聚合主流AI工具、严格审核信息来源、持续更新行业动态;3)平台提供多维对比功能,结构化呈现工具参数,帮助用户快速定位适合需求的解决方案;4)建议用户定期浏览平台资讯栏目,善用搜索筛选功能,通过对比视图做出明智选择。核心价值在于降低信息筛选成本,让用户更高效地获取有价值的AI工具和前沿资讯。

  • WEEX亮相0xConnect线下活动,深化全球化布局与行业伙伴交流

    WEEX交易所受邀出席圣彼得堡0xConnect线下活动,与全球加密品牌共同探讨行业趋势并拓展合作机会。该活动聚集了来自交易所、公链项目、钱包及投资机构的代表,通过面对面交流碰撞出新的合作火花。WEEX团队借此机会向与会者介绍了平台在合规建设、资金安全和用户体验方面的价值理念,展示了打造安全透明交易环境的品牌承诺。未来WEEX将继续参与全球行业活动,以开放姿态推动加密生态健康发展。

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • Agentic AI落地加速:迈富时企业级智能体中台2.0,让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首,预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台,通过"技术赋能+场景落地"双轮驱动,构建了从模型能力到业务价值的闭环。该平台具有三大核心优势:1)"模型-应用-开发平台"三位一体架构;2)ChatBox+工作流双开发模式,支持快速部署;3)企业级安全保障,满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用,最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队,真正释放代理型AI的战略价值。

  • 忆联新一代eMMC 5.1产品:容量倍增、功耗降低18%,以卓越TCO重塑智能终端存储体验

    忆联新一代eMMC5.1产品针对智能终端高清化、强交互性需求,推出256GB大容量版本,性能功耗双升级。关键优势:1)顺序读写速度达330/290MB/s,随机读写33K/30K IOPS;2)功耗降低18%,优化电源管理;3)采用3D NAND和动态SLC缓存技术,写入寿命提升50%至200TBW;4)创新分级睡眠机制,非活跃状态自动切换至微安级模式。通过"大容量+高能效+长寿命"三角模型,显著降低用户TCO,助力智能设备厂商构建可持续发展生态。

今日大家都在搜的词: