首页 > AI头条  > 正文

Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

2025-03-03 11:37 · 来源: AIbase基地

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

image.png

跨越“恐怖谷”:CSM 的技术突破

“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时,会引发人类的不适感。Sesame 通过其 CSM 模型正面应对这一难题。X 用户 @imxiaohu 在3月1日发帖称:“兄弟们,这个全新的语音模型很厉害,已经无法分辨了!”他指出,CSM 在个性、记忆、表达能力及语境恰当性上表现出色,几乎消除了传统语音助手的机械感。

Sesame 团队在官方研究文章中表示,CSM 的目标是实现“语音存在感”——让语音交互不仅真实可信,还能被理解和重视。这一突破得益于其核心组件:情感智能(解读并回应情感)、上下文记忆(基于对话历史调整输出)以及高保真的语音生成技术。演示中,CSM 在超长对话中展现了语气自然、情感丰富的一面,用户甚至无法在不知情的情况下分辨其为 AI。

image.png

用户体验逼真

X 平台上的用户反馈进一步印证了 CSM 的惊艳表现。@imxiaohu 在帖子中分享了一段超长对话演示,涵盖多种场景和情景,并感叹:“语气、情感一些表达上非常非常的接近人类,哈哈哈哈。”他提到,在无提示的情况下,这款模型的输出已让人难以区分真假。另一位用户 @leeoxiang 在3月1日表示,他用 CSM 练习了半小时英语口语,几乎感觉不到延迟,并称其“口语化做得特别好,会有一些口气在里面”,主动对话能力也令人印象深刻。

社区的热情不仅限于称赞。许多用户指出,CSM 的对话流畅度和情感表达已超越现有主流模型,如 OpenAI 的 ChatGPT 语音模式。@op7418

 在2月28日推荐研究者关注 Sesame 的技术文章,并强调其独特的语音真实度评价体系,显示出该模型在技术上的严谨性。

仍有提升空间:Sesame 的未来计划

尽管 CSM 的表现令人震撼,Sesame 官方坦言这并非终点。@imxiaohu援引官方说法称,“这还不是最完美的,还有很大提升的空间!”目前,CSM 支持英语等多语言,但如 @leeoxiang 所指出,尚不支持中文。此外,部分用户在测试中发现,模型在特定语境(如外语切换或音乐演唱)下的表现仍有改进余地。

Sesame 已承诺将部分研究成果开源,其 GitHub 页面(SesameAILabs/csm)显示 CSM 将采用 Apache2.0许可。这一举措引发了开发者社区的期待,许多人希望通过对其架构的深入研究,进一步推动语音 AI 的发展。

行业影响与展望

CSM 的亮相不仅是对“恐怖谷效应”的技术回应,也为 AI 语音交互树立了新标准。与 Grok、Claude 等模型相比,CSM 在实时性、低延迟和情感表达上的优势尤为突出。X 用户 @AbleGPT

 在3月2日表示:“如果你在研究 AI 语音,强烈推荐看看这个文章。”这反映了 CSM 对技术圈的启发意义。

随着 Sesame 计划扩大语言支持并优化模型,CSM 有望在教育、娱乐和虚拟伴侣等领域大放异彩。从 X 上的热烈反响来看,这款“兄弟们都觉得厉害”的语音模型,正以逼真的对话能力重新定义人与 AI 的互动方式。未来,它是否能彻底消除“恐怖谷”,成为真正的“数字伙伴”?答案或许就在 Sesame 的下一次迭代中。

试玩地址:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

  • 相关推荐
  • 硬核创新比肩华为,Momenta首度荣膺WNEVC 2025全球新能源创新技术

    9月27日,2025世界新能源汽车大会在海口开幕。会上,Momenta凭借其全场景量产辅助驾驶方案Mpilot,荣获“全球新能源汽车创新技术”奖项。该方案基于全国首个量产“端到端大模型”,实现全场景智能驾驶,覆盖复杂道路环境,极大减轻驾驶员负担。目前,Momenta合作车型超160款,覆盖奔驰、宝马、丰田等全球主流车企。未来,公司将持续推动无人驾驶技术规模化落地,助力智能出行产业发展。

  • 一群“数贸新生代”即将从义乌搅动全球

    在义乌"世界超市",90后、00后"数贸新生代"正悄然接棒父辈生意。他们带着全球化视野与数字化思维,通过品牌化、高端化转型重塑商贸基因:JMJR品牌打造珠宝专柜体验,远洋玩具拓展冲浪板等高附加值产品,美妆企业聚焦海外市场。这群年轻人既突破传统铺货模式,又延续义乌创业精神,在六区新市场用AI视频、场景营销等新玩法,书写"批零结合+品牌出海"的新商业叙事,实现从"鸡毛换糖"到"键盘敲遍全球"的代际进化。

  • 破解海外旅游语言困境,时空壶新T1以端侧模型开启全球畅行

    国庆假期临近,海外旅游热度攀升,语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型,实现无网或弱网环境下的流畅翻译,支持31种语言互译,覆盖全球98%主流旅游地。其离线翻译准确率达90%,响应迅速,并具备拍照翻译和降噪功能,有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒,尽享无忧旅程,真正实现“无网也能畅行全球”。

  • 统一全球保鲜标准后,海尔又制定全球首个冰箱声音舒适度标准

    海尔冰箱连续17年全球销量第一,持续引领行业标准创新。针对用户对家居静音需求提升,海尔牵头制定全球首个《家用冰箱声音舒适度评价方法》,从分贝数值竞争升级至听觉体验优化。其首创多维声屏障科技,通过低、中、高频分段降噪,实现运行噪音低至31分贝,达“一米外听不见”的静音效果。9月26日,搭载该技术的麦浪冰箱9系新品通过德国VDE最高A级认证并正式发布。海尔联合多家权威机构填补行业标准空白,推动冰箱从“功能合格”迈向“体验优秀”,巩固全球引领地位。

  • 霸榜双雄齐步走!Century Games专列直达东京电玩展

    世纪华通旗下Century Games为参加2025东京电玩展(TGS2025)量身定制了游戏主题“专列”,覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间,公司包下途经展馆的列车广告位,车厢内贴满《Whiteout Survival》与《Kingshot》海报,串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置,以两款游戏标志性场景为背景,结合本地化舞台节目与互动体验,强化品牌影响力。此次营销不仅为展会预热,更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

  • DNS.COM重磅发布全球化基础设施安全服务战略 开创❝一站式安全❞基础设施新纪元

    知名网络基础设施服务商DNS.COM今日宣布战略调整,定位升级为“全球化一站式基础设施安全服务商”。此次转型标志着公司从传统DNS服务向综合性安全服务迈进,创新提出“一站式安全”架构,将安全能力深度融入DNS解析、云计算等基础设施层面。新战略以智能DNS解析、全球安全节点部署、专业服务保障为三大支柱,通过AI驱动技术提升威胁防护能力,最高支持6T级DDoS防护。公司计划2026年前在全球部署超100个安全节点,助力企业降低安全管理成本,推动行业向主动安全治理演进。这一调整有望为数字化转型中的企业提供更高效、全面的安全解决方案。

  • 云栖大会智舱黑科技:全球首个全模态端侧大模型解决方案,斑马智行首发

    9月24日,2025云栖大会在杭州开幕,主题为“云智一体·碳硅共生”,汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型,其中Qwen3-Omni作为行业首个端到端全模态AI大模型,在36项基准测试中实现22项SOTA,性能全面突破。大会聚焦多模态技术,斑马智行宣布率先接入Qwen3-Omni,并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni,具备主动智能、断网可用、隐私无忧三大特点,推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产,标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日,预计更多创新技术将亮相。

  • 苹果A19单核性能登顶全球第一!超越一众PC CPU:功耗仅4W

    苹果A19芯片在PassMark单核性能测试中表现卓越,以5149分登顶榜首,超越英特尔Core Ultra 9 285K和AMD EPYC等桌面处理器。其仅依靠被动散热,功耗约4瓦,能效优势显著。尽管多线程性能受限于核心数量,但作为移动设备芯片,这一成绩已足够亮眼。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • ColorOS 16将于10月15日发布 Find X9系列全球首发搭载

    OPPO将于10月15日举办ColorOS 16发布会暨开发者大会。新系统底层升级至安卓16,重点优化动画渲染与资源分配,实现丝滑流畅体验。新增潮汐引擎与极光引擎,提升系统稳定性和流畅度。目前尝鲜活动已开启,覆盖一加13、Find X8系列等多款机型。10月发布的Find X9系列将首发搭载ColorOS 16,成为全球首款该系统的旗舰机型。

今日大家都在搜的词: