首页 > 业界 > 关键词  > 音频最新资讯  > 正文

Google的E3 TTS 通过扩散模型提供高质量音频合成方法

2023-11-07 13:57 · 稿源:站长之家

要点:

1、E3TTS 是一种简化高效的端到端扩散式文本到语音模型,通过扩散模型生成高保真的语音波形。

2、E3TTS 模型由预训练的 BERT 模型和扩散 UNet 模型组成,以提取文本信息并迭代地生成最终的语音波形。

3、E3TTS 不仅能生成高保真音频,还支持零样本任务,如语音编辑和基于提示的生成。

站长之家(ChinaZ.com)11月7日 消息:Google 的研究团队提出了一种名为 E3TTS 的简便端到端扩散式文本到语音模型。该模型通过扩散模型保留时间结构,能够直接接受纯文本输入并生成音频波形。它利用预训练的 BERT 模型提取文本信息,并通过扩散 UNet 模型迭代地生成最终的语音波形。相比其他现有的文本到语音系统,E3TTS 简化了部署、训练和设置过程,并且不依赖中间特征的质量。

E3TTS 模型采用非自回归方式,以文本作为输入,实时生成音频波形。它的架构包括两个主要模块:预训练的 BERT 模型用于提取输入文本的相关信息,扩散 UNet 模型用于处理 BERT 输出,迭代地优化初始噪声波形以预测最终的原始波形。这种设计使得 E3TTS 能够直接从 BERT 特征生成高质量的音频波形,并且可以使用多种语言进行训练。

image.png

为了增强对 BERT 输出的信息提取,E3TTS 模型采用了 U-Net 结构,其中包含一系列下采样和上采样块。在顶层的下采样 / 上采样块中,引入了交叉注意力机制。在较低层次的块中,使用了自适应 softmax 卷积神经网络(CNN)内核,其内核大小由时间步和说话者确定。在其他层次中,通过特征级线性调制(FiLM)将说话者和时间步嵌入进行组合,包括用于通道级缩放和偏差预测的复合层。

实验证明,E3TTS 能够生成高保真音频,接近最先进的神经 TTS 系统的性能。此外,它还支持各种零样本任务,如语音编辑和基于提示的生成。E3TTS 的设计简化了端到端 TTS 系统的构建,并在实验中取得了令人印象深刻的结果。

总结起来,E3TTS 通过扩散模型从 BERT 特征直接生成高质量音频。它简化了端到端 TTS 系统的设计,经过实验证明具有出色的性能。

举报

  • 相关推荐
  • 倍思 Inspire系列重磅发布!携手Sound by Bose重新定义专业音频,售价799元起

    2025年9月5日,倍思与Bose联合发布Inspire系列三款旗舰音频新品:全球首款圈铁双单元耳夹耳机XC1、真无线降噪耳机XP1及头戴式降噪蓝牙耳机XH1。新品融合Bose声学技术,支持Hi-Res认证、LDAC高清解码,主打专业音质与舒适佩戴。价格亲民(XC1补后764元,XH1补后849元,XP1补后679元),旨在打破高端音频价格壁垒,让专业音质走进大众生活。即日起开启预售,9月12日正式发售。

  • 阿里Wan2.2-S2V正式发布:一张图+一段音频 即可生成人物动态视频

    今晚,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。 支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。

  • 三星推出Galaxy Buds3 FE耳机新品:带来更加智能、时尚的音频新体验

    三星电子于2025年8月18日发布新款智能耳机Galaxy Buds3 FE,主打亲民价格与高端性能。新品延续标志性刀锋设计,配备升级版主动降噪(ANC)和Galaxy AI功能,支持跨设备无缝切换和语音交互。通过增强型扬声器实现三频均衡音效,超宽频通话技术确保清晰沟通。耳机采用哑光双色半透明设计,支持与三星生态设备联动,提供智能翻译等AI功能。将于9月5日上市,提供银雾灰、暗羽黑两种配色,进一步扩展三星Galaxy生态体验。

  • iOS 9将支持完整音频插件 编辑音频更容易

    威锋网讯,苹果在 WWDC 上对 iOS 9 新特性的介绍十分迅速,甚至有一些特性在发布会上是未被提及到的,现在越来越多的 iOS 9 特性开始被开发者或者是用户发现。其中一个未被提及到的特性就是增加了对完整音频插件...

  • 移动音频怎么玩“移动”?

    “哈罗,欢迎收听FMXX.X”,这是我们熟悉的电台场景。电台与手机的“姻缘”在 “砖头”诺基亚的时代就存在了,现在的智能手机里面,也都会把电台作为一款“插件”一样的工具放在手机里,但是这种处于“半死不活”状态的电台,价值又有多大呢?

  • 车载音频:在线音频的下半场“战事”

    近两年,中国智能汽车的发展呈现井喷态势。一方面,传统汽车公司加速转型,多家车企先后推出了多款在车联网软硬件层面完成进阶的车型;另一方面,新造车公司把车载人机交互和服务的竞争推向了新高度。智能化是未来汽车产品竞争的主赛道,业内几乎没有质疑。从目前的发展情况看,车联网产品在包括大尺寸液晶屏等硬件+核心操作系统软件层面发展较快,打牢了底层基础,而受制于车载环境中的人机交互模式及相关技术壁垒,上层的服务和?

  • 不妨考虑一下音频

    有声书是很早就出现的一种数字产品,但我个人一直很好奇这个产品的受众在哪里:书似乎是用来看的。有声书你得耐着性子一个字一个字听下去,没有抱着书可以前翻后翻来得爽啊。

  • 阿基米德的音频社群路

    社群部落的典型特征就是互动性要强。这种互动体现在两方面,其一是用户有一定的内容生产,也就是跟帖。其二是每个社群部落间或有些活动。

  • 日开通音频搜索网站 首次实现音频文字检索

    中国站长站(CHINAZ)据站长提交的信息透露日本产业技术综合研究所日前发布了一个音频搜索网站,首次实现用音频内容中出现的字句进行检索。据日本《读卖新闻》网站13日报道,人们检索音频资料时通常都是利用文件名的关键字来检索文件。而这项服务采用声音识别技术,将声

  • Dream:On:通过音频流来控制我们的梦境

    弗洛伊德曾说过梦是潜意识欲望或愿望的满足,人们在现实生活中无法得到满足的事情,常常会在梦里得以实现。梦里自有颜如玉,梦里自由黄金屋,但是,有的时候也并非如此,然而随着科技的发展,越来越多的创业公司开始开发应用,试着去控制人们的梦境,比如雷锋网之前介绍过的Yumemiru,还有今天将要介绍的Dream:On。

今日大家都在搜的词: