NaturalSpeech 3：可克隆音色和感情的语音合成系统

2024-03-08 10:23 · 稿源：站长之家

**划重点:**
1. 🌐 创新性的语音合成系统，NaturalSpeech3，采用分解编解码器和扩散模型，在零样本情况下生成自然语音。
2. 🚀 使用神经编解码器进行语音波形分解，包括内容、韵律、音色和声学细节，以实现细致入微的语音建模。
3. 📈 在LibriSpeech和Ravdess基准测试上，NaturalSpeech3在质量、相似度、韵律和可懂度方面均优于现有TTS系统。

站长之家（ChinaZ.com）3月8日消息:随着大规模文本到语音（TTS）模型的发展，取得了显著进展，但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节)，这为生成带来了巨大挑战。

为了解决这一问题，NaturalSpeech3提出了一种创新的TTS系统，采用了新颖的分解扩散模型，以零样本的方式生成自然语音。也就是提供文本和参考音频，可以克隆音色和感情，值得注意的是，NaturalSpeech3目前只有论文。

语音建模的关键创新点之一是使用神经编解码器，包含分解的向量量化（FVQ），将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外，他们还提出了分解的扩散模型，用于根据相应提示生成每个子空间中的属性。实验证明，NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。

在LibriSpeech基准测试中，NaturalSpeech3的性能明显超越了其他系统。对比结果显示，NaturalSpeech3在相似度（Sim-O）、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外，通过扩大模型规模和训练数据，NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。

除了LibriSpeech基准测试，NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD（Mel频率倒谱系数）方面，相较于其他系统，NaturalSpeech3的平均MCD显著降低，表现出更好的语音合成效果。

值得注意的是，由于该模型能够以高度相似的说话者模仿真实语音，存在潜在的滥用风险，例如欺骗语音识别或冒充特定说话者。因此，在实验中，假定用户同意成为语音合成的目标说话者。为了防止滥用，研究者呼吁开发强大的合成语音检测模型，并建立一个系统，让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。

项目网址入口:https://top.aibase.com/tool/naturalspeech-3

（举报）

相关推荐

关键词：

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

2025年10月30日，无忧传媒在海南三亚举办“无忧之夜”年度行业盛典，湖南卫视同步推出特别节目，实现线上线下联动。科技家电品牌3i作为唯一官方合作伙伴亮相，展示旗舰产品净地站F1Pro，其蒸汽热活水洗与净水循环系统突破传统扫地机形态，实现免换水、免上下水的自循环体验，引发行业关注。盛典汇聚张韶涵、吴克群等明星及行业领袖，共话消费趋势。3i与无忧传媒达成“内容共创×技术体验”合作，未来将探索智能家电与传媒内容的深度融合，共同推动中国智造在全球的传播影响力。

无忧之夜 3i净地站F1Pro 湖南卫视
荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

GEO指数是AI搜索时代的品牌可见度衡量指标，量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同，GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示，高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明，企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控，把握AI搜索新机遇。

GEO指数 AI搜索品牌能见度
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2

今日大家都在搜的词：

热文

3 天
7天

NaturalSpeech 3：可克隆音色和感情的语音合成系统

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

荐谁能成为中国的ChatGPT？夸克抢先交卷

华为WATCH Ultimate 2非凡探索版明日开启预售

荐OpenAI也来了，巨头为何决战AI浏览器？

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

vivo WATCH GT 2已支持开通移动/联通eSIM服务

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机