Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

2025-10-29 16:46 · 稿源：站长之家用户

近日，Soul App AI团队（Soul AI Lab）正式开源播客语音合成模型 SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/方言与副语言风格，能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外，SoulX-Podcast在通用语音合成或克隆场景下也表现出色，带来更真实、更生动的语音体验。

SoulX-Podcast表现

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中，SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格，更能根据对话语境灵活调节韵律与节奏，让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话，还是情感层次丰富的交流，SoulX-Podcast 都能保持声音的连贯与表达的真实。此外，SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成，让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外，SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是，SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音，模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成，并维持稳定的音色与风格。

聚焦语音，AI重构情感纽带

一直以来，声音都是传递信息和情感的重要媒介，也最能在沟通中赋予“情绪温度”和“陪伴感”。在Soul，用户积极通过语音实时互动，表达自我、分享交流，收获新关系，语音成为用户构建链接的“情感纽带”，“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中，智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前，平台端到端全双工语音通话大模型全面升级，并在站内开启内测。新模型赋予 AI 自主决策对话节奏的能力，AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等，实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

同时，团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力，快速应用于“虚拟伴侣”、群聊派对（多人语音互动场景）等多元场景中。

例如，9月，Soul 的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话，在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下，这场活动迅速引爆社区，房间互动热度刷新平台纪录，受到了广大用户的热烈欢迎。

这一成功案例让 Soul 的 AI 技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。它不仅展现了虚拟人的人格魅力与表达张力，更揭示了 AI 在内容创作与社交互动中的全新潜能。

然而，当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少，并且当场景从单人独白扩展到多人对话与长篇播客时，也普遍面临一些问题。为此，Soul 团队决定开源 SoulX-Podcast，希望能携手 AIGC 社区，共同探索 AI 语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段，探索AI+社交更多可能

相比传统的单说话人语音合成系统，播客语音合成系统不仅需要保持文本与语音的精准一致，还要具备更强的上下文理解能力，以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。此外，面对多角色交互和超长对话场景，系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来，已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。然而，这些工作仍主要聚焦于普通话或英语，对中文受众广泛的方言（如粤语、四川话、河南话等）支持不足。此外，在多轮语音对话场景中，恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要，但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:不仅支持多轮、多角色的长对话生成，同时兼顾方言覆盖和副语言表达能力，使播客语音更贴近真实交流场景、富有表现力与生动感，从而提升听众的沉浸体验和内容传播力。

整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式，前者建模语义token，后者进一步建模声学特征。在基于LLM的语义token建模方面，SoulX-Podcast 以 Qwen3-1.7B 作为基座模型，并基于原始文本模型参数进行初始化，以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统，但在传统的单人语音合成与零样本语音克隆任务中同样表现优异。在播客生成任务中，相较于近期相关工作，SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。

SoulX-Podcast在播客场景下的表现

SoulX-Podcast在通用TTS上的表现，*官方模型的复现结果

此次 SoulX-Podcast 的开源，是 Soul 在开源社区领域的一次全新尝试，也是一个新的起点。 Soul团队表示，未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升，并加速技术在多样化应用场景与整体生态中的融合落地，为用户带来更加沉浸、智能且富有温度的交互体验，持续提升个体的幸福感与归属感。同时，团队将进一步深化开源生态建设，与全球开发者携手，共同拓展 AI 语音等前沿能力的边界，探索 “AI +社交” 的更多可能。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
又一明星创始人入局AI播客、红杉中国押注，这次能翻出水花吗？

前字节智慧教育CEO李可佳推出AI播客产品Aibrary，通过将书籍转化为个性化播客服务个人学习场景。产品核心功能包括：1）智能推荐书单和两段式音频（8-10分钟摘要+对话解析）；2）创新"分身播客"功能，用户可生成与AI对话的定制播客。该产品定位成人终身学习赛道，与NotebookLM等工具形成差异化，通过播客形式降低学习门槛。目前采用订阅制（年费89.99美元），已获红杉中国等机构投资。

AI播客明星创业者 ChatPods
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

随着AI问答时代到来，用户从“搜索”转向直接向AI“提问”，生成引擎优化（GEO）应运而生。文章指出，易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可，并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测，通过模拟真实用户提问，提供品牌在AI回答中的曝光度、排名等数据分析及优化建议，帮助品牌提升AI可见度，抢占智能问答时代先机。

SEO GEO 搜索引擎优化
Soul 兴趣主理人：在世界的褶皱中寻找自我

文章通过李升和Ada两位旅行者的故事，探讨旅行如何从消遣转变为生活方式。李升从18岁开始冒险穷游，深入中东等地，通过镜头记录真实世界，获得自我认同；Ada则以理性规划旅行，制作详尽路书，享受掌控与意外插曲的温暖。他们在Soul App记录旅途，展现不同风格：李升追求野性冒险，Ada注重精致体验。文章强调，真正的兴趣能打开更多可能性，重塑人与自我、世界的关系，实现更真实的自我。

旅行自由灵魂都市精英
客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
享受专属赛道体验服务！雷军：小米Ultra Club对所有Ultra车主开放

小米汽车今日宣布，小米Ultra Club面向所有Ultra车主开放入会。车主入会后可享：赛道服务、赛道专场体验、官方专属活动及专属顾问1对1服务。目前赛道服务已覆盖12个城市，车主们可结合自身需求选择加入。

小米汽车 Ultra Club
Soul App Q3生态安全报告:以科技力量守护真实社交

Soul App发布《2025年第三季度生态安全报告》，聚焦社交平台安全治理。平台通过“技术+制度+教育”三维体系，在AI风控、反欺诈、未成年人保护及违规内容治理等领域取得进展：AI反欺诈模型误伤率降80%，高风险人设识别覆盖率达70%；处置违规账号30.6万个，日均拦截违规内容超2.6万条；强化未成年人保护，自动切换青少年模式。同时推进社区共治，超7.8万用户参与内容共建，形成安全生态良性循环。

社交平台生态安全虚假信息

今日大家都在搜的词：

热文

3 天
7天

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

又一明星创始人入局AI播客、红杉中国押注，这次能翻出水花吗？

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

Soul 兴趣主理人：在世界的褶皱中寻找自我

客服回应iPhone通话语音隔离：是“语音突显”功能

享受专属赛道体验服务！雷军：小米Ultra Club对所有Ultra车主开放

Soul App Q3生态安全报告:以科技力量守护真实社交

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

鸿蒙智行：全新问界M7上市36天交付破20000台

网信办宣布开展“整治网络直播打赏乱象”专项行动

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

站长商机