首页 > 业界 > 关键词  > 音频最新资讯  > 正文

Google的E3 TTS 通过扩散模型提供高质量音频合成方法

2023-11-07 13:57 · 稿源:站长之家

要点:

1、E3TTS 是一种简化高效的端到端扩散式文本到语音模型,通过扩散模型生成高保真的语音波形。

2、E3TTS 模型由预训练的 BERT 模型和扩散 UNet 模型组成,以提取文本信息并迭代地生成最终的语音波形。

3、E3TTS 不仅能生成高保真音频,还支持零样本任务,如语音编辑和基于提示的生成。

站长之家(ChinaZ.com)11月7日 消息:Google 的研究团队提出了一种名为 E3TTS 的简便端到端扩散式文本到语音模型。该模型通过扩散模型保留时间结构,能够直接接受纯文本输入并生成音频波形。它利用预训练的 BERT 模型提取文本信息,并通过扩散 UNet 模型迭代地生成最终的语音波形。相比其他现有的文本到语音系统,E3TTS 简化了部署、训练和设置过程,并且不依赖中间特征的质量。

E3TTS 模型采用非自回归方式,以文本作为输入,实时生成音频波形。它的架构包括两个主要模块:预训练的 BERT 模型用于提取输入文本的相关信息,扩散 UNet 模型用于处理 BERT 输出,迭代地优化初始噪声波形以预测最终的原始波形。这种设计使得 E3TTS 能够直接从 BERT 特征生成高质量的音频波形,并且可以使用多种语言进行训练。

image.png

为了增强对 BERT 输出的信息提取,E3TTS 模型采用了 U-Net 结构,其中包含一系列下采样和上采样块。在顶层的下采样 / 上采样块中,引入了交叉注意力机制。在较低层次的块中,使用了自适应 softmax 卷积神经网络(CNN)内核,其内核大小由时间步和说话者确定。在其他层次中,通过特征级线性调制(FiLM)将说话者和时间步嵌入进行组合,包括用于通道级缩放和偏差预测的复合层。

实验证明,E3TTS 能够生成高保真音频,接近最先进的神经 TTS 系统的性能。此外,它还支持各种零样本任务,如语音编辑和基于提示的生成。E3TTS 的设计简化了端到端 TTS 系统的构建,并在实验中取得了令人印象深刻的结果。

总结起来,E3TTS 通过扩散模型从 BERT 特征直接生成高质量音频。它简化了端到端 TTS 系统的设计,经过实验证明具有出色的性能。

举报

  • 相关推荐
  • 大家在看
  • Parler-TTS:一个高质量文本到语音(TTS模型

    一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型,它能够生成听起来非常自然的语音,为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南,帮助用户快速上手并根据自己的需求对模型进行定制。

  • 天九共享助推托育服务高质量发展 为家庭提供更好的服务

    育儿难题和养老服务需求日益凸显。越来越多的年轻人在结婚生娃后或多或少都会遇到育儿难题,一是因为没有经验,二是很多双职工家庭没人带娃,此外还存在年轻人与长辈教育观念有一定矛盾分歧等问题,这使得高质量的托育服务供不应求。天九共享集团作为享誉中外的创新企业加速平台,积极借助平台资源和能力,持续助力托育养老行业创新和加速增长,推动托育养老服务优质发展,为儿童和家庭提供更好的服务,同时也为行业发展注入新的活力。

  • Align Your Steps:低步数推理保持高质量结果 适用于SD 1.5和SDXL

    在深度学习领域,扩散模型作为生成建模的前沿方法已经得到广泛应用。DMs的一个关键缺点是其较慢的采样速度,这主要是由于需要通过大型神经网络进行多次顺序函数评估。在视频生成方面进行了研究,发现使用优化计划可以在视频生成过程中产生更加稳定的视频,减少随时间推移的颜色失真。

  • 聚焦绿色低碳高质量发展,中成空间这样答题

    在数字化转型与绿色发展的时代背景下,全球经济深入发展,产业结构持续升级,新质生产力的培育和发展已成为推动经济社会高质量发展的核心动力。作为行业科技创新的领跑者,中成空间打造“气膜”特色品牌,气膜产品凭借其领先的科研技术、创新实践和环保理念,为新质生产力的发展注入强大动力,为港口码头、矿产原采、文体科技、商旅文化等领域的转型升级和高质量发展增添创新动能。中成空间将持续发挥其在新质生产力发展中的重要作用,助力各行业迈向更高层次的转型升级和高质量发展,同时也为构建更绿色、智能、高效的产业生态贡献企业力量。

  • 科技加码,长生人寿向高质量发展之路挺进!

    近些年,长生人寿聚焦数年所积累的线下优势持续发力,将保护消费者权益作为一切工作的出发点、立足点和根本点,把“以用户为中心”的服务理念转化成改进管理、优化服务、诚信展业的实际行动,形成线上线下一体、前后端完美联动、实时智能的服务形式,助推公司快速发展,促推保险惠及更广泛的人群。全面互联,搭建数字化平台长生人寿将物联网技术应用到线下服�

  • Google扩充Gemma开源家族:推出CodeGemma和RecurrentGemma模型

    Google宣布扩充其Gemma开源家族,推出了两个新的模型:CodeGemma和RecurrentGemma。这两个模型的推出旨在进一步提升Gemma家族在自然语言处理领域的能力。这一更新将进一步优化模型的性能,为用户提供更好的使用体验。

  • 存量时代最优解!小熊电器:以产品为先支撑高质量发展

    纵观小家电市场近几年的角逐,竞争异常激烈。在疯狂的上半场,各家使尽浑身解数赢得了数据的狂欢。不管市场如何变,把住用户这根准绳,以产品力为核心武器,小熊电器将为突围存量时代,驱动品牌驶入高质量发展的快车道,蓄积源源不断的强劲动能。

  • 告别不格涂料产品 三棵树以创新研发为驱动打造高质量产品

    目前我国已有超过20万个老旧小区完成改造,涉及近1亿人口,推动了内外墙翻新的需求。去年,24.7%的消费者选择翻新自住房,体现了居住品质升级的趋势。然而,如果在选择涂装产品时不够谨慎,买到了不合格产品,就可能会在翻新涂装环节踩坑。作为国内的健康漆领军品牌,三棵树致力于通过创新研发打造高质量涂料产品,让更多消费者在选择时告别不合格产品,避免踩坑

  • BOE(京东方)发布2023年年报 稳定经营促进高质量发展

    4月1日,京东方科技集团股份有限公司发布2023年年度报告,全年实现营业收入1745.43亿元,归属于上市公司股东的净利润25.47亿元,扣除非经常性损益后的净利润同比增长71.74%,营业收入和扣除非经常性损益后的净利润实现逐季度提升,全年保持稳定经营,为2024年公司高质发展奠定了良好的基础。在“屏之物联”发展战略下,BOE以“聚焦主业、高质发展”为原则,在实现显示业务持续领先的同时,“14N生态链”发展架构的其他业务板块均亮点纷呈,其中物联网创新、传感、MLED、智慧医工业务营收分别同比增长13.30%、32.13%、81.42%、26.71%,并在柔性、电竞、车载等多个细分领域叩响2024首季“开门红”,经营质量持续提升。2024年是BOE面向下一个三十年的开局之年,BOE将始终秉持“屏之物联”的发展战略,推动显示技术与物联网技术、数字技术深度融合,以创新科技加快发展显示产业新质生产力,全力构建“PoweredbyBOE”的产业价值创新生态,推动经营业绩稳健增长,引领并带动全产业链的高质发展与价值创造。

  • 以数智制造提升竞争力,小熊电器引领行业高质量发展

    2023年6月份,小熊电器冲鹤工厂生产的一批充电料理杯正准备入库,团队成员刘科在抽检中发现其中一台充满电不能启动。虽然只有一台,但如果还有其它不良批次,后果将非常严重。于是他果断叫停生产线,立即与技术工程师进行分析,加大比例做测试实验,最终经过更换电机并充分验证符合质量要求后,这批产品才出厂交付到用户手中。看似是一次寻常的“质量检测”,背

今日大家都在搜的词:

热文

  • 3 天
  • 7天