首页 > 业界 > 关键词  > NaturalSpeech最新资讯  > 正文

微软NaturalSpeech语音合成推出第三代 生成语音更自然了

2024-03-22 14:47 · 稿源:站长之家

要点:

  • 微软 NaturalSpeech 推出第三代语音合成技术,实现了超自然的零样本语音合成。

  • NaturalSpeech3采用创新的属性分解扩散模型和数据 / 模型扩展,提高了语音合成的质量和自然度。

  • FACodec 和属性分解扩散模型是 NaturalSpeech3的关键技术,取得了 SOTA 的语音合成效果。

站长之家(ChinaZ.com)3月22日 消息:近来,微软 NaturalSpeech 项目推出了第三代语音合成技术,以实现超自然的零样本语音合成。NaturalSpeech3通过属性分解扩散模型和数据 / 模型扩展,提高了语音合成的质量和自然度。其关键技术 FACodec 和属性分解扩散模型取得了 SOTA 的语音合成效果。

NaturalSpeech3的成功在于基于属性分解的 Codec+Diffusion 建模范式,以及数据 / 模型扩展。传统 TTS 系统难以支持高质量零样本语音合成,而 NaturalSpeech3通过扩大数据集和模型规模,大幅提升了合成语音的质量和自然度。

image.png

论文:https://arxiv.org/abs/2403.03100

Demo 演示: https://speechresearch.github.io/naturalspeech3

FACodec 作为 NaturalSpeech3的核心组件,能够将语音波形转换成不同属性的解耦表示,从而实现高质量语音合成。属性分解扩散模型的设计使得对音素持续时间、韵律、内容和声学细节的建模更加精准,从而提升了语音合成的效果。

NaturalSpeech3在语音质量、相似性、韵律和可懂度方面均超越了现有 TTS 系统。其扩散模型和 FACodec 的应用展示了基于属性分解的语音表征在语音合成领域的巨大潜力,为实现自然且高质量的语音合成提供了新思路。

微软 NaturalSpeech3的技术突破和创新为语音合成领域带来新的可能性,为未来更自然、更高效的语音合成奠定了基础。这一成果将进一步推动语音合成技术的发展,为实现智能语音交互提供更强大的支持。

举报

  • 相关推荐
  • 阿里语音大模型在Speech Arena斩获国内第一 全球排名第五

    在全球权威AI评测平台Artificial Analysis的语音排行榜(Speech Arena)上,阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分位列全球第五、国产第一。 在ASR(将语音转为文字)、Chat(端到端的语音理解与对话)以及TTS(将文字转为语音)三个核心赛道,该模型均斩获全国第一,实现语音交互领域的大满贯”。 语音大模型的能力可拆解为三个层次:听得准(ASR)、说得好(TT

  • 1499元!华为FreeClip 2典藏版发布:首发AI随口记 耳边小助理

    华为于6月1日发布FreeClip 2典藏版耳机,售价1499元,6月15日开售。外观提供星海蓝、珠光银配色,充电盒采用珠宝盒设计,内部空间提升20%。耳机采用锆光云感C形桥设计,柔软度提升25%,单只仅5.1克。功能新增AI按键,支持连续对话、按住说话及AI随口记,智慧翻译支持面对面和同声传译。核心搭载自研第三代音频芯片,算力提升10倍,支持星闪2.0、空间音频,响度与低音动力均提升100%。整机续航38小时,支持IP57防水、星闪查找等功能。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • 收费才是DeepSeek的“成人礼”

    DeepSeek首次融资的“金主”名单,逐渐浮出水面。 6月3日,媒体报道称,DeepSeek计划募集约500亿元人民币,投后估值达3500亿至4000亿元。相比上月底传闻的700亿元,最新传出的融资规模略有收缩。 除了DeepSeek创始人梁文锋承诺投入200亿元外,腾讯考虑投资100亿元,宁德时代也可能投资50亿元。综合多方消息,其他潜在投资方包括国家集成电路产业投资基金、网易、京东、砺思资�

  • 稳住基本盘的小米,紧追DeepSeek

    ​小米一季度财报发布后第二天,MiMo先有了新动作。 就在刚刚,小米宣布MiMo-V2.5系列API永久降价,最高降幅99%,Token Plan同价位用量提升至5至8倍。几天前,DeepSeek刚把V4-Pro的2.5折优惠改成永久价。小米这次跟进,意味着MiMo正在以更低门槛加速参与大模型竞争。 “从短期来看,我们面对成本周期、需求周期和竞争周期三重周期叠加的挑战;长期来看,我们正进入AI重构人车家全

  • 微软推出语音合成模型 NaturalSpeech2

    微软最近推出了一个名为NaturalSpeech2的语音模型。这个模型采用了“潜在扩散”式设计,在零样本语音合成方面表现非常出色。它的推出将推动语音合成技术的发展,为用户提供更加智能、自然的语音交互体验。

  • 华为FreeClip 2典藏版耳夹耳机官宣6月1日发布:灵感来自珠宝盒 仪式感给足了

    今日,华为宣布,华为FreeClip 2典藏版耳夹耳机将于6月1日正式发布。 据华为终端BG CEO何刚介绍,华为FreeClip 2典藏版带来专属星海蓝、珠光银两款配色,耳机拥有海洋之心般的流动光影效果。 同时,新款耳机采用全新充电盒设计,灵感来自珠宝盒,每一次开合都特别有仪式感。

  • NaturalSpeech 3:可克隆音色和感情的语音合成系统

    随着大规模文本到语音模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性,这为生成带来了巨大挑战。这一研究符合微软的负责任AI原则。

  • 小米MiMo要蹭着DeepSeek蹦上牌桌

    ​5月27日,小米把 MiMo-V2.5系列 API 永久降价。 MiMo-V2.5-Pro 的输入缓存命中价格降到0.025元/百万 tokens,输入未命中价格3元/百万 tokens,输出价格6元/百万 tokens。普通版 MiMo-V2.5更低:缓存命中0.02元,输入未命中1元,输出2元。 这不是一次常规促销。 因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek。 MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5对 DeepSeek V4-Flash�

  • 本月第四次!DeepSeek又崩了约半小时 现已修复

    今日上午,AI平台DeepSeek再度发生服务中断,这是其本月第四次出现大规模异常故障。 据用户反馈,当日10时21分起,DeepSeek网页对话服务与API接口均无法正常使用,出现服务器繁忙” 等提示。 官方状态页面将本次故障定级为部分中断”,并于10时27分确认已定位故障原因,随即开展修复工作。 至10时50分,所有受影响服务均恢复正常运行,本次中断时长约29分钟。

今日大家都在搜的词: