首页 > 传媒 > 关键词  > 生成式人工智能最新资讯  > 正文

支持普通话、英语和粤语零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer

2026-02-10 11:23 · 稿源: 站长之家用户

过去一年,生成式人工智能音乐行业的应用正不断创造新体验,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。

为拓展这一领域,近日,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),正式开源歌声合成模型SoulX-Singer,这是一个面向真实应用场景设计的高质量零样本歌声合成模型,超42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面,均达到了当前开源 SVS 模型中的领先水平。

SoulX-Singer介绍

SoulX-Singer 结构简图

过去一段时间,语音合成与音乐生成领域迎来了快速发展,大模型与生成式 AI 持续刷新行业认知。然而,与这一热潮形成对比的是,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型,这很大程度上制约了 SVS 技术在真实业务场景中的应用与落地。

SVS(Singing Voice Synthesis,歌唱语音合成)是一种根据歌词和乐谱生成歌声的技术。相比于普通语音合成(TTS,Text-to-Speech Synthesis),SVS 需要对音高、音律以及演唱风格等进行精细控制,以实现自然且富有表现力的歌声输出。与近期热门的 Music Generation(自动生成整段音乐或伴奏)不同,SVS 专注于可由 MIDI 控制的人声生成,因此在虚拟歌手、歌词演绎以及多语言歌声创作等场景中展现出独特价值。

在这样的背景下,SoulX-Singer 正式开源。SoulX-Singer 是一个面向真实工业应用场景设计的零样本歌声合成模型,其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。为此,模型在整体架构、建模范式以及控制机制上进行了针对 SVS 场景的系统性设计。

在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,并将歌声合成问题建模为一种 audio infilling(音频补全)任务。针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer 在建模阶段显式引入了note 级别的对齐机制。

模型通过构建歌词、MIDI 音符(note)与声学特征之间的精细对齐关系,使得每一个音符的起止时间、音高(pitch)以及持续时长都能够被准确建模和独立控制。这一设计使得模型不仅能够忠实还原乐谱信息,还可以在生成阶段灵活调整音符结构,从而满足音乐编辑、重编曲等复杂需求。

大规模 SVS 训练数据,夯实零样本能力基础

零样本歌声合成对训练数据的规模、多样性与覆盖范围提出了极高要求。SoulX-Singer 得益于超过42000小时的高质量歌声数据进行训练,覆盖多语言、多音色及多种演唱风格

在如此大规模数据的支持下,模型在面对未见过的歌手与复杂音乐条件时,依然能够保持稳定、自然且高质量的合成表现。在实际测试中,SoulX-Singer 展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础。

Music Score 与 Melody 多种控制方式

在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI)和基于 Melody的两种歌声合成控制方式:

·Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力。

·Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式,适用于翻唱、风格迁移等应用场景。

这种双控制范式为实际音乐制作流程提供了更高的灵活性,使SoulX-Singer能够覆盖从“从零创作”到“基于已有歌曲再创作”的多种使用需求。

多语言支持,面向真实应用场景

SoulX-Singer 当前支持普通话、英语和粤语三种语言的歌声合成,并在不同语言和音乐风格下均展现出稳定一致的合成质量。这一多语言能力为其在内容创作、虚拟歌手、互动娱乐等应用场景中的落地提供了更广阔的空间。

客观表现

在评测方面,SoulX-Singer 在GMO-SVS和SoulX-Singer-Eval两个数据集上,对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。

其中,GMO-SVS 综合了GTSinger、M4Singer 和 Opencpop等主流开源 SVS 数据集;而 SoulX-Singer-Eval 则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保测试歌手未出现在训练集中。

实验结果表明,SoulX-Singer 在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。

尽管此前歌声合成领域已经涌现出一些优秀的研究工作,但受限于训练数据规模或控制方式单一等因素,相关模型在真实使用场景中仍面临诸多挑战。SoulX-Singer 的发布提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成解决方案,为歌声合成技术在UGC音乐创作等方向的实际应用探索带来了积极意义。

SoulX-Singer 也延续了Soul AI团队的开源工作。此前,Soul AI团队已陆续开源了播客语音合成模型SoulX-Podcast、实时数字人生成模型SoulX-FlashTalk,在语音、歌声、实时数字人、视频等不同领域提供了可落地的多模态生成方案。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 单卡RTX 4090可运行 、96 FPS,Soul App开源实时数字人生成模型SoulX-FlashHead

    Soul AI Lab推出轻量化实时数字人生成模型SoulX-FlashHead,仅1.3B参数,在消费级显卡RTX 4090上实现96FPS高帧率,同时画质达SOTA水平。模型通过“先验”训练机制和时序音频上下文缓存技术,解决了小模型画质差和长视频身份漂移问题,支持电商直播、游戏NPC等广泛场景,权重与代码已全面开源。

  • Meta调整薪酬结构:为聚焦人工智能 员工股权激励缩水5%

    为给巨额人工智能投入腾出资金,Meta正推进新一轮成本控制措施,包括将数万名员工的股权激励缩减5%。这是该公司连续第二年削减员工薪酬。去年已削减股票期权分配约10%,此次再下调5%。扎克伯格正加大AI领域投入,希望与OpenAI、谷歌等对手竞逐前沿模型开发,同时安抚尚未看到AI投资回报的投资者。他还在其他业务领域持续裁员,今年1月就在持续亏损的元宇宙部门裁减约1500个岗位。不过知情人士透露,尽管股权激励普遍下调,Meta今年仍在改革绩效考核体系,为业绩优异者提供更丰厚奖励。这意味着公司整体薪酬预算并未下降,而是进行了结构性调整。一名员工表示,考虑到当前科技行业就业市场不景气,而Meta薪酬水平仍然具备竞争力,员工大概率不会因这一变化而选择离职。

  • OpenAI开发双向语音模型:被打断也能秒回 让通话更自然顺畅

    OpenAI正研发新型双向语音模型BiDi,旨在让用户与ChatGPT的对话更自然流畅。其核心突破在于,当用户在AI发言过程中打断时,AI能实时调整回应,而非突然停止。目前ChatGPT的高级语音模式采用回合制对话机制,用户需先说完话,AI才会处理语音并生成回答。BiDi模型能持续处理说话者的语音输入,因此在被打断时可以立即调整响应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。这项技术目前仍处于开发阶段,原计划今年第一季度发布,但最新发布时间可能推迟到第二季度或更晚。

  • GEO推广链接优化效果检测工具——开启生成式引擎优化的精准导航仪

    ​在AI浪潮重塑信息获取方式的当下,流量格局正经历一场静默而深刻的革命。当用户习惯于向DeepSeek、豆包、文心一言等智能助手提问,而非在传统搜索引擎中输入关键词时,一种全新的流量入口——AI生成式答案——已成为兵家必争之地。“我的推广内容,是否被AI看见并推荐?” 正取代 “我的网页在百度排名第几?” ,成为内容营销者面临的核心拷问。 在此背景下,一种�

  • Soul App发布妇女节特别报告:致具体的“她”,在社交共鸣中构建向内生长力

    Soul App发布的报告显示,Z世代女性正从外部标签回归内在秩序,更关注真实处境中的理解与支持,而非符号化赞美。她们重视自我节奏,将“悦己”视为对身心负责的自我管理,在效率社会中努力守住情绪秩序,在多元环境中保持自我节奏,体现出更加理性与稳健的成长观。

  • 谷歌Gemini上线音乐模型 一句话即可生成歌曲

    谷歌于2月20日宣布,其Gemini应用已集成DeepMind旗下先进音乐生成模型Lyria+3。用户仅需一句文字描述或一张照片,即可在数秒内生成一段30秒的完整音乐片段。该模型创作方式灵活,可根据用户指定的风格、情绪或节奏生成包含人声、歌词和伴奏的歌曲,或分析上传的照片/视频画面氛围,创作契合场景的配乐,并配有自定义封面。此外,YouTube创作者可通过Dream Track功能为Shorts短视频配乐。消息公布后,Spotify股价一度上涨近5%。分析认为,Lyria+3短期内虽不会对Spotify构成致命冲击,但可能倒逼其加快推出AI混音功能。谷歌通过技术手段明确划定边界,试图在创新与保护之间寻求平衡,例如将真实音乐人视为创作灵感来源而非模仿对象,并使用SynthID技术为生成曲目添加水印以便检测AI内容。目前Lyria+3已向全球18岁以上用户开放,支持多国语言。

  • AI日报:美团Tabbit浏览器开启公测;通义发布语音双模型;Notion 引入首个开源权重模型 MiniMax M2.5

    本期AI日报聚焦多领域AI新动态:美团旗下Tabbit浏览器公测,集成多模型AI Agent,实现网页自动化执行;阿里通义发布语音双模型,支持自然语言控制音色与场景;Notion引入开源模型MiniMax M2.5,打破闭源垄断,提升性价比;谷歌升级Flow AI工具,整合视频、绘画与特效功能;阿里巴巴AI品牌统一更名为“千问”,强化战略聚焦;三星宣布2030年迈向“AI工厂”,以Agentic AI驱动全链路自治;OpenAI疑似收购顶级域名GPT.com,巩固品牌地位;北京大学与OceanBase打造LoVR基准,入选WWW 2026,开启全视频智能检索新模式。

  • 百惠金控:金融创科迎新局 港股人工智能IPO受热捧

    接近农历,港股市场交易气氛依然炽热。百惠金控观察到,科创板块已成为带动大市上行的核心引擎,尤其是人工智能(AI)相关股份持续受资金青睐,板块热度持续攀升。香港特区政府财政司司长近日表示,香港作为国际金融中心,将凭借“金融联动创科”的效应乘势而上,进一步放大香港的制度优势。市场对科创板块的积极情绪,在年初新股表现中得以充分印证。2026年1月2

  • AI日报:MiniMax公布上市后首份财报;千问开源Qwen3.5小型模型系列;Claude Code官方语音模式上线

    本期AI日报涵盖多项重要动态:MiniMax发布上市后首份财报,展示其AI平台战略进展;阿里通义千问开源Qwen3.5小型模型系列,支持多模态处理,适用于边缘设备;Google NotebookLM上线信息图自定义样式功能,简化知识可视化流程;Claude Code推出语音模式,提升编程协作效率;疑似GPT-5.4细节泄露,或具备超长上下文和状态化能力;Zopia实现多智能体协作自动化视频制作;QM发布2025年AI应用榜,豆包、DeepSeek、元宝等位列前五;DeepSeek V4 Lite凭借2000亿参数展现顶尖性能,成为国产模型新标杆。整体显示AI技术正快速向多模态、轻量化、场景化方向演进。

  • 微软AI CEO:未来18个月大量白领工作将被人工智能取代 这些职位先遭殃

    在当下这个AI快速普及的时代,每个人或多或少都会有一些AI替代焦虑症。微软AICEO的最新表态,进一步加深了这种焦虑。苏莱曼的核心使命是实现AI超级智能,助力微软实现人工智能自给自足,减少对OpenAI的依赖,优先建设公司的独立基础模型。

今日大家都在搜的词: