首页 > 业界 > 关键词  > NaturalSpeech3最新资讯  > 正文

NaturalSpeech 3:可克隆音色和感情的语音合成系统

2024-03-08 10:23 · 稿源:站长之家

**划重点:**

1. 🌐 创新性的语音合成系统,NaturalSpeech3,采用分解编解码器和扩散模型,在零样本情况下生成自然语音。

2. 🚀 使用神经编解码器进行语音波形分解,包括内容、韵律、音色和声学细节,以实现细致入微的语音建模。

3. 📈 在LibriSpeech和Ravdess基准测试上,NaturalSpeech3在质量、相似度、韵律和可懂度方面均优于现有TTS系统。

站长之家(ChinaZ.com)3月8日 消息:随着大规模文本到语音(TTS)模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性(例如内容、韵律、音色和声学细节),这为生成带来了巨大挑战。

为了解决这一问题,NaturalSpeech3提出了一种创新的TTS系统,采用了新颖的分解扩散模型,以零样本的方式生成自然语音。也就是提供文本和参考音频,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有论文。

image.png

语音建模的关键创新点之一是使用神经编解码器,包含分解的向量量化(FVQ),将语音波形分解成内容、韵律、音色和声学细节等子空间。** 这种分解设计使得NaturalSpeech3能够以分治的方式高效地建模复杂的语音。此外,他们还提出了分解的扩散模型,用于根据相应提示生成每个子空间中的属性。实验证明,NaturalSpeech3在质量、相似度、韵律和可懂度等方面优于现有TTS系统。

在LibriSpeech基准测试中,NaturalSpeech3的性能明显超越了其他系统。对比结果显示,NaturalSpeech3在相似度(Sim-O)、错误率(WER)、音质(CMOS)、语音质量(SMOS)等方面均取得了显著的优势。此外,通过扩大模型规模和训练数据,NaturalSpeech3在200K小时的训练数据和10亿参数的规模下取得了更好的性能。

image.png

除了LibriSpeech基准测试,NaturalSpeech3还在Ravdess基准测试上表现出色。在MCD(Mel频率倒谱系数)方面,相较于其他系统,NaturalSpeech3的平均MCD显著降低,表现出更好的语音合成效果。

值得注意的是,由于该模型能够以高度相似的说话者模仿真实语音,存在潜在的滥用风险,例如欺骗语音识别或冒充特定说话者。因此,在实验中,假定用户同意成为语音合成的目标说话者。为了防止滥用,研究者呼吁开发强大的合成语音检测模型,并建立一个系统,让个体报告任何疑似滥用行为。这一研究符合微软的负责任AI原则。

项目网址入口:https://top.aibase.com/tool/naturalspeech-3

举报

  • 相关推荐
  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

  • 索尼旗舰阵容集结北京,共赴2026 CHINA P&E光影盛宴

    第27届中国国际照相机械影像器材与技术博览会(2026 CHINA P&E)将于2026年5月15日至18日在北京举办。索尼将携Alpha1 II、Alpha9 III、Alpha7R V及Alpha7V等多款旗舰微单,以及超三元系列G大师镜头等重磅产品亮相。展会以“致敬十年 明日之师”为主题,庆祝G大师镜头十周年,设置动态人像、生态拍摄等多个沉浸式体验区,并举办14场摄影师讲座。现场还提供相机清洁保养服务,观众可通

  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • 千问电脑版上线AI语音输入法功能

    千问电脑版正式上线AI语音输入法,全面开放免费使用。用户只需按下快捷键(Windows右Alt键/Mac右Command键),即可在微博、QQ邮箱、PS等桌面应用中直接调用。该功能支持“边想边说、边说边改”,自动去除口语化表达如“嗯”“啊”,并进行纠错和格式化。此外,它还能结合上下文智能回复,支持创作、问答、翻译等指令,如自动生成邮件回复、制作PPT、整理表格或输出Word文档,大幅提升办公效率。

  • DeepSeek专家模式无法上传文件 官方提示:目前资源紧张

    多位网友今日反馈,DeepSeek的专家模式”已无法上传文件,官方提示资源紧张,不支持文件上传”。 经测试,DeepSeek的网页端和App均已下线了专家模式”的上传文件功能。 目前,DeepSeek的快速模式”依然可以上传文件、图片等,不过还是仅识别图片中的文字。

  • OpenClaw接入DeepSeek V4:支持实时语音通话

    DeepSeek-V4发布后,全球顶级Agent开源项目OpenClaw迅速完成对其Flash和Pro版本的全面适配。这标志着DeepSeek-V4正式成为智能体开发的主流底层基座。V4在自主决策、工具调用、长链任务执行等关键能力上深度优化,上下文承载、逻辑推理与复杂编码能力显著提升,更适配自动化工作流等前沿场景。此次适配将扩大DeepSeek在开源生态的渗透率,压缩海外大模型市场优势,并大幅降低开发者构建高性能AI智能体的成本与门槛,推动国产大模型在Agent赛道话语权持续提升。

  • OpenAI成立OpenAI部署公司:帮助企业构建人工智能系统

    OpenAI正式成立OpenAI 部署公司”,在帮助企业构建人工智能系统。 同时,OpenAI已同意收购Tomoro一家专注于将AI转化为运营优势的应用 AI 咨询与工程公司。 新成立的部署公司由OpenAI控股,无论客户是与OpenAI、OpenAI部署公司,还是与两者同时合作,都将获得统一的服务体验。

  • AI新王诞生!Anthropic估值冲爆1.2万亿 首次反超OpenAI

    长期笼罩在OpenAI阴影下的二号选手”Anthropic,近期在链上Pre-IPO市场的隐含估值骤然飙升至1.2万亿美元(约合人民币8.7万亿元)。 若Anthropic以这一估值顺利完成首次公开募股,它将直接跃升为全球第11大上市公司,缔造商业史上的新神话。 最新链上Pre-IPO交易数据显示,短短七天内,Anthropic估值暴涨20%,单周涨幅已相当于一家头部上市公司的体量。而自2025年10月以来,其估值曲

  • 网易新闻、网易小蜜蜂已接入DeepSeek-V4 智能内容与社区体验全面升级

    近日,网易传媒旗下网易新闻和网易小蜜蜂正式接入DeepSeek-V4大模型,全面升级新闻资讯分发、智能内容创作、社区互动及个性化推荐等核心场景。此举旨在提升内容精准度与效率,优化随看随问、跟帖问答、AI搜索等模块,实现全链路智能化。同时,网易小蜜蜂推出“校园龙虾养成计划”,将AI融入年轻用户社交场景,打造趣味养成与社区互动新体验。未来,网易将持续探索AI在内容生态与智能社区领域的创新应用。

今日大家都在搜的词: