首页 > 传媒 > 关键词  > 语音合成模型最新资讯  > 正文

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

2025-10-29 16:46 · 稿源: 站长之家用户

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

SoulX-Podcast表现

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予 AI 自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、 群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul 的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力,更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。为此,Soul 团队决定开源 SoulX-Podcast, 希望能携手 AIGC 社区,共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。

SoulX-Podcast在播客场景下的表现

SoulX-Podcast在通用TTS上的表现,*官方模型的复现结果

此次 SoulX-Podcast 的开源,是 Soul 在开源社区领域的一次全新尝试,也是一个新的起点。 Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索 “AI +社交” 的更多可能。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 豆包更新语音对话功能:能讲粤语、四川话等4种方言

    豆包语音对话功能近日更新,新增粤语、四川话、东北话及陕西话4种方言对话能力。用户通过文字或语音指令,即可让豆包用指定方言交流,并默认使用“温柔桃子”升级版音色。该功能借助语音模型方言迁移技术,实现单音色说多方言,具备思考能力,可根据用户意图灵活切换。除上述4种方言外,豆包还能听懂上海话、南京话等18种方言,其语音识别技术准确性与效率显著提升。

  • 2026,视频播客,尚能火否?

    ​2025年,视频播客成了内容行业的新风口。 B站率先下场,罗永浩、鲁豫、于谦等名人,以及晚点、商业漫谈、乱翻书等商业媒体或媒体人纷纷入局。 更有大量视频播客创作者,将内容同步分发至抖音、小红书、喜马拉雅,甚至微博、腾讯视频等平台。

  • 罗永浩透露最牛产品研发出意外:做播客是为了“补贴家用”

    近日,罗永浩受邀参加极客公园IF 2026。 节目中,罗永浩坦言:做播客节目并不是什么体面的原因。” 罗永浩透露,去年搞了一个软硬件结合的 AI 智能硬件方案。如果能按时交付,绝对是去年最牛的产品。 然而,工程上出了意外以前做手机时老是硬件出问题,去年也不知道为什么,反倒是软件出了问题,硬件没问题。这就很尴尬,做出来的一堆机器只能放在仓库里吃灰。”

  • 罗永浩百万级变现,广告主为何青睐视频播客?

    头部明星视频播客创作者已经实现7位数变现。 据Tech星球了解,头部明星视频播客创作者中,罗永浩等人已经实现百万级广告赞助。而且目前还有多家品牌,正在以超过百万元的预算,寻求与播客栏目的合作。 从诞生至今,视频播客的进化速度远比想象中要快,外延也更广阔。虽然,外界对于视频播客的评价褒贬不一,既有像自媒体作者潘乱这样的拥趸,旗帜鲜明地看好它�

  • 中东社交修罗场里,SoulChill的“慢哲学”

    常被认为是“娱乐荒漠”的中东,实则是全球社交娱乐应用竞争最激烈的战场之一。 自2016年起,这里见证了红利期的狂飙,也经历了随之而来的波折与淘汰——从早期的娱乐直播,到后续的语音社交、游戏社交、视频互动,不少产品已在短暂爆发后悄然退场。 在机遇与挑战并存的市场中,2019年进

  • 黄仁勋:未来两三年90%的新知识由AI合成

    英伟达CEO黄仁勋近日在一档节目中表示,未来两到三年内,全球约90%的新知识可能都将由人工智能合成生成。 但他同时指出,这尽管听起来令人震惊,但其本质与人们从陌生人编写的教科书中学习并无不同:无论知识来自人类还是AI,我们仍然需要对其进行事实核查,并验证其是否基于可靠原理。问题的核心并不在于由谁生成”,而在于信息是否可靠”。 此外,黄仁勋提到�

  • 豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

    今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

  • 对话Articuler:做职业社交里的Tinder

    ​我问Articuler创始人Jason,如果用一句话定义你的公司,你会怎么说? 他说,“职业社交里面的Tinder”。 我反问,“(定语里)没有 AI ,没有 Agent ?” 他说,“没有。因为用户不会管你用的AI,还是BI。一个极好的产品,用户是不会看到 AI 痕迹的。” 今天AI改变了世界的很多东西,但人的需求及其背后隐藏着的对“好产品”的定义,其实是不会变化的。所谓“Tinder”,其实�

  • 豆包输入法iOS版迎来首次更新!优化耗电、语音输入更方便了

    日前,豆包输入法iOS版迎来发布后的首次更新,最新版本升级至0.8.1。 本次更新重点优化了耗电表现、设置首页样式,并新增语音输入后的修改推荐功能,同时修复了多项已知问题,整体体验进一步完善。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

今日大家都在搜的词: