微软推出语音合成模型NaturalSpeech 2 只需几秒提示语音即可定制语音

2023-07-27 14:02 · 稿源：站长之家

站长之家（ChinaZ.com）7月27日消息:微软 AI 团队推出 NaturalSpeech2，一款采用潜在扩散模型的先进文本到语音系统，具备强大的零样本语音合成和增强表达力的韵律功能。该系统可用于语音合成和唱歌合成，为用户提供高质量、多样化的语音合成体验。

NaturalSpeech2是一种 TTS 系统，通过潜在扩散模型生成富有表达力的韵律、良好的韧性，并且最关键的是具备强大的零样本能力，能够进行语音合成。

项目地址:https://speechresearch.github.io/naturalspeech2/

与传统的 TTS 系统不同，NaturalSpeech2使用连续向量而不是离散的标记来表示语音，从而提供了更准确的语音重构。

NaturalSpeech2通过使用大规模数据集进行训练，展示了其在零样本情况下生成具有不同说话人身份、韵律和风格（如唱歌）的语音的能力。

实验结果表明，NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律更加相似，并且在 LibriTTS 和 VCTK 测试集上的自然度（以 CMOS 为度量）与真实语音相当或更好。

它还可以通过一个简短的唱歌提示或仅有的语音提示来生成具有新音色的唱歌声，实现了真正的零样本唱歌合成。