首页 > 传媒 > 关键词 > FastSpeech最新资讯 > 正文

浙大一知智能研究中心联合微软推出语音合成系统FastSpeech

2019-06-06 09:44 · 稿源:站长之家用户投稿

编者按:目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,浙大一知智能研究中心联合微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

近年来,基于神经网络的端到端文本到语音合成(Text-to-Speech,TTS)技术取了快速发展。与传统语音合成中的拼接法(concatenative synthesis)和参数法(statistical parametric synthesis)相比,端到端语音合成技术生成的声音通常具有更好的声音自然度。但是,这种技术依然面临以下几个问题:

合成语音的速度较慢

端到端模型通常以自回归(Autoregressive)的方式生成梅尔谱(Mel-Spectrogram),再通过声码器(Vocoder)合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;

合成的语音稳定性较差

端到端模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成,由于序列生成的错误传播(Error Propagation)以及注意力对齐不准,导致出现重复吐词或漏词现象;

缺乏可控性

自回归的神经网络模型自动决定一条语音的生成长度,无法显式地控制生成语音的语速或者韵律停顿等。

为了解决上述的一系列问题,浙大一知人工智能研究中心联合微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队提出了一种基于Transformer的新型前馈网络FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。

在LJSpeech数据集上的实验表明,FastSpeech除了在语音质量方面可以与传统端到端自回归模型(如Tacotron2和Transformer TTS)相媲美,还具有以下几点优势:

快速:与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了近38倍,单GPU上的语音合成速度是实时语音速度的30倍;

鲁棒:几乎完全消除了合成语音中重复吐词和漏词问题;

可控:可以平滑地调整语音速度和控制停顿以部分提升韵律。

模型框架

前馈Transformer架构

FastSpeech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制,如图1(a)所示。其主要模块采用Transformer的自注意力机制(Self-Attention)以及一维卷积网络(1D Convolution),我们将其称之为FFT块(Feed-Forward Transformer Block, FFT Block),如图1(b)所示。前馈Transformer堆叠多个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。特别注意的是,中间有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度差异。

长度调节器

长度调节器如图1(c)所示。由于音素序列的长度通常小于其梅尔谱序列的长度,即每个音素对应于几个梅尔谱序列,我们将每个音素对齐的梅尔谱序列的长度称为音素持续时间。长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔谱序列的长度。我们可以等比例地延长或者缩短音素的持续时间,用于声音速度的控制。此外,我们还可以通过调整句子中空格字符的持续时间来控制单词之间的停顿,从而调整声音的部分韵律。

音素持续时间预测器

音素持续时间预测对长度调节器来说非常重要。如图1(d)所示,音素持续时间预测器包括一个2层一维卷积网络,以及叠加一个线性层输出标量用以预测音素的持续时间。这个模块堆叠在音素侧的FFT块之上,使用均方误差(MSE)作为损失函数,与FastSpeech模型协同训练。我们的音素持续时间的真实标签信息是从一个额外的基于自回归的Transformer TTS模型中抽取encoder-decoder之间的注意力对齐信息得到的,详细信息可查阅文末论文。

实验评估

为了验证FastSpeech模型的有效性,我们从声音质量、生成速度、鲁棒性和可控制性几个方面来进行了评估。

声音质量

我们选用LJSpeech数据集进行实验,LJSpeech包含13100个英语音频片段和相应的文本,音频的总长度约为24小时。我们将数据集分成3组:300个样本作为验证集,300个样本作为测试集,剩下的12500个样本用来训练。

我们对测试样本作了MOS测试,每个样本至少被20个英语母语评测者评测。MOS指标用来衡量声音接近人声的自然度和音质。我们将FastSpeech方法与以下方法进行对比:1) GT, 真实音频数据;2) GT (Mel + WaveGlow), 用WaveGlow作为声码器将真实梅尔谱转换得到的音频;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一种常用的参数法语音合成系统,并且采用WORLD作为声码器。

从表1中可以看出,我们的音质几乎可以与自回归的Transformer TTS和Tacotron 2相媲美。

合成速度

我们比较FastSpeech与具有近似参数量的Transformer TTS的语音合成速度。从表2可以看出,在梅尔谱的生成速度上,FastSpeech比自回归的Transformer TTS提速将近270倍;在端到端(合成语音)的生成速度上,FastSpeech比自回归的Transformer TTS提速将近38倍。FastSpeech平均合成一条语音的时间为0.18s,由于我们的语音平均时长为6.2s,我们的模型在单GPU上的语音合成速度是实时语音速度的30倍(6.2/0.18)。

图2展示了测试集上生成语音的耗时和生成的梅尔谱长度(梅尔谱长度与语音长度成正比)的可视化关系图。可以看出,随着生成语音长度的增大,FastSpeech的生成耗时并没有发生较大变化,而Transformer TTS的速度对长度非常敏感。这也表明我们的方法非常有效地利用了GPU的并行性实现了加速。

鲁棒性

自回归模型中的编码器-解码器注意力机制可能导致音素和梅尔谱之间的错误对齐,进而导致生成的语音出现重复吐词或漏词。为了评估FastSpeech的鲁棒性,我们选择微软(亚洲)互联网工程院语音团队产品线上使用的50个较难的文本对FastSpeech和基准模型Transformer TTS鲁棒性进行测试。从下表可以看出,Transformer TTS的句级错误率为34%,而FastSpeech几乎可以完全消除重复吐词和漏词。

语速调节

FastSpeech可以通过长度调节器很方便地调节音频的语速。通过实验发现,从0.5x到1.5x变速,FastSpeech生成的语音清晰且不失真。

消融对比实验

我们也比较了FastSpeech中一些重要模块和训练方法(包括FFT中的一维卷积、序列级别的知识蒸馏技术和参数初始化)对生成音质效果的影响,通过CMOS的结果来衡量影响程度。由下表可以看出,这些模块和方法确实有助于我们模型效果的提升。

未来,我们将继续提升FastSpeech模型在生成音质上的表现,并且将会把该模型应用到其它语言(例如中文)、多说话人和低资源场景中。我们还会尝试将FastSpeech与并行神经声码器结合在一起训练,形成一个完全端到端训练的语音到文本并行架构。

我们也将在不久后开放论文源代码,敬请关注!

浙大一知智能联合研究院介绍:

浙大一知智能联合研究院是由一知智能科技与浙大联合成立的研究机构,目前拥有近30人的人工智能算法研发团队,均为研究生以上学历,且有10余名计算机专业博士,研究方向包括自然语言理解、语音识别、语音合成等人工智能前沿领域,旨在打造语音人机交互闭环生态。

本文来源:微软研究院 AI 头条,作者谭旭

网友热搜:

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 相关推荐
  • 大家在看
  • 极智嘉( Geek+)

    极智嘉( Geek+)成立于 2015 年,是一家快速发展的“机器人互联网+”公司,以智能物流为切入点,利用大数据、云计算和人工智能技术,专注打造极具智能的机器人产品。

  • shopee虾皮开店流程

    Shopee虾皮作为最近几年迅速崛起的跨境电商新兴的黑马,加上东南亚的市场崛起,不少卖家涌入虾皮。虾皮购物是一个电子商务平台,总部设在新加坡,隶属于Sea Group,该公司于 2009 年由李小冬创立。虾皮购物于 2015 年首次在新加坡推出,目前已扩展到马来西亚、泰国、印度尼西亚、越南、菲律宾和中国台湾。以下是shopee的入驻条件,入驻方式和流程介绍。

  • shopee怎么读 用英语正确发音是什么

    shopee又称为虾皮,很多人不明白shopee这个词用英语怎么发音,所以今天就来为大家详细的介绍一下这个shopee怎么读。

  • Illumina收购BlueBee以加速大规模测序数据的处理分析和共享

    Illumina,Inc.(纳斯达克股票代码:ILMN)通过收购基于云的软件公司BlueBee来增强其分析和解释其测序系统产生的数据的能力,BlueBee为研究和临床客户提供基因组分析解决方案。BlueBee总部位于荷兰,已开发出符合法规的安全云平台,可简化对数据和工具的访问,使用户能够轻松地从基因组数据中提取见解。期望这种云功能可以降低存储,共享和管理从Illumina已安装的15,000多个测序系统中流过来的大量基因组数据的成本。将B

  • 在俄罗斯,半个娱乐圈都在玩Likee短视频

    2020年无疑是短视频在世界蓬勃发展的一年。作为出海短视频的领导品牌,BIGO旗下短视频Likee已经成为俄罗斯的现象级平台。另据全球专业移动数据平台App Annie数据显示,Likee长时间稳居俄罗斯应用下载排行榜前十,与TIKTOK同为世界最流行的短视频应用。日前,由BIGO旗下的全球短视频平台Likee、俄罗斯阿廖沙(Alyosha)慈善基金会共同举办的慈善嘉年华(Likee Stars Festival),就吸引了众多俄罗斯明星的积极参与,包括俄罗斯国宝级歌手海豚?

  • 微软小冰与OPPO Breeno合作深化,丰富双AI互动体验

    6月24日 北京今日,OPPO与微软共同宣布,OPPO手机智能助理Breeno语音开放“召唤小冰”能力一年之际,双方合作再次深化。微软小冰与OPPO Breeno团队加速合作,不断打造和更新更符合OPPO生态的AI技能,提升微软小冰在Breeno语音中的产品体验。微软小冰最新解锁的一系列技能中,大幅提升了日常话题交流的丰富性。Breeno语音与微软小冰两个AI联动配合,为用户带来更加丰富精彩的双AI互动体验。去年夏季,OPPO与微软达成合作。依托微软?

  • 裁减媒体团队、出售海外业务,BuzzFeed还要不要搞新闻?

    其实,延长时间线来看,近年来BuzzFeed的人事变动和结构调整并不少见。 2018 年,BuzzFeed在英国遭遇巨额亏损,随后关闭了在欧洲的一些分支机构; 2019 年,它裁掉了 200 名左右的员工。最近,它还计划出售在德相关业务。

  • 培养智慧时代管理会计 恒企教育推出SEE.AI智适应平台

    互联网、人工智能、大数据时代的到来,成为新一轮科技革命和产业变革的重要驱动力量。近年来,人工智能算法在大数据和计算机算力的加持下,开始在企业运营和管理方面展现出它的潜力,这一新兴技术正在给管理会计行业带来影响。在科技的浪潮下,中国管理会计体系迎来新的发展机遇。当前传统的财务会计主要的任务就是做账,从每一笔资金的来源,总账、现金、固定资产等,再到最后的报告,这都是传统会计的工作内容。而人工智能在信息?

  • 华为FreeGo便携蓝牙音箱发布:首创一碰传音、无线传声

    FreeBuds、Freelace之后,华为Free音频系列再迎新成员。今日,华为发布了一款FreeGo便携蓝牙音箱。除了便携以及传统蓝牙音箱的功能外,最大的特色就是加入了一碰传音、无线传声等独家功能。华

  • 一加Z Geekbench跑分曝光:疑似将搭载骁龙765G

    前不久一加创始人刘作虎曾宣布,一加产品线即将迎来“新成员”,未来将丰富智能产品类别和多个价位段间的产品。随后有网友爆料称,刘作虎口中的这款新产品就是此前曾多次曝光的被称为一加8廉价版的一加Z。现在有最新消息,近日有数码博主爆料称,该机将搭载的是高通骁龙765G处理器,并放出了该机的跑分信息。据知名数码博主@数码闲聊站 最新发布的消息显示,这款新机的Geekbench单核得分612分,多核得分1955分,这一成?

  • 哔哩哔哩首席运营官COOcarlylee:幕后默默付出的B站守护者

    哔哩哔哩(简称B站)是一家年轻的视听文化新型传媒公司,由小众过渡到大众,在短短的数年内便成为了国内活跃用户总量数一数二的网络视听平台,一直以来都源源不断的为国内青年输送了大量优质的文化内容,而提及B站,就不得不提它背后的守护者,B站副董事长兼首席运营官COOcarlylee。今年是B站成立的第九个年头, 3 月 28 日刚刚在纳斯达克上市,招股书显示B站最新的月活跃人数已突破 7600 万人,日均留存时长76. 3 分钟。92.8%的用户

  • 小米电视棒获得EEC认证!U 盘大小的4K盒子 即插即用

    4 月中旬,小米电视棒与其他即将推出的生态产品一同泄露,随后更是在德国曝光了完整的规格参数,看来离上市已经不远了。现在,最新的消息更进一步验证了这一点。

  • 还能再战两年!小米6适配Android 11现身Geekbench

    小米6作为2017年推出的旗舰机型,虽然该机诞生距今已超过3年的时间,但是不少用户仍然在使用它,这部分群体被称为“米6钉子户”。6月11日,据微博科技大V@数码闲聊站 爆料,随着And

  • “GREENBAL”百家号社会领域收入排名,做自媒体月收入有多少

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。GREENBAL是当前百家号中的普通号,目前账号百家号权重为0,综合排名位列1037990名,社会分类排名位列134107名,领先了7.1%的百家号。 GREENBAL百家号概况 GREENBAL的简介为足疗管理、足疗服务、足疗用品的相关点评,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过0篇的游戏内容,最?

  • Uber宣布任命Pradeep Parameswaran为亚太地区业务负责人

    DoNews6月11日消息(记者 翟继茹)11日,据外媒报道,Uber宣布任命Pradeep Parameswaran为亚太地区新任业务总经理。此前,Pradeep Parameswaran服务印度和南亚的Uber业务已经有两年时间。Parameswaran在一份声明中表示:“在这个多元化的地区,服务更多优步客户和继续创新的潜力是巨大的,无论是在北亚的出租车合作伙伴关系,还是在澳大利亚推出的新产品,亦或是把两轮和三轮车推向印度腹地。”虽然此前,Uber退出了东南亚和中国市?

  • “Weekenders”百家号美食领域收入排名,做自媒体月收入有多少

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。Weekenders是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列72503名,美食分类排名位列2604名,领先了93.5%的百家号。 Weekenders百家号概况 Weekenders的简介为周末人儿, 轻周末,轻生活,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过23篇的游戏内容,最近该作者创

  • 准备好万能充!三星可拆卸电池手机现身Geekbench

    三星在去年12月推出了主打低端市场的Galaxy A01智能手机。有传言称,该公司正计划推出一款更便宜并采用可拆卸电池设计的Galaxy A01智能手机,我们此前也进行了报道。而现在,这款手机似乎真的要

  • Facebook首届Deepfake检测挑战赛结果:获胜算法准确率65.18%

    据外媒报道,Facebook 日前宣布了其首届 Deepfake 检测挑战赛的结果,获胜算法能够以 65.18% 的平均准确率发现非常逼真的 Deepfake 虚假内容。

  • Payoneer派安盈:一季度中国跨境电商收入同比增长25%

    Payoneer派安盈发布 2020 年第一季度全球跨境电商指数报告。中国、英美、法国、越南、韩国、印度 2020 年第一季度的跨境电商销售额与去年同期相比均呈现逆势增长。其中,中国跨境电商收入同比增长25%,稳居全球跨境电商市场榜首。

  • “coffee笔记”百家号综合领域收入排名,做自媒体月收入有多少

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考。coffee笔记是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列652324名,综合分类排名位列27291名,领先了41.6%的百家号。 coffee笔记百家号概况 coffee笔记的简介为聊一聊咖啡这件正经事儿……,是一家主旨明确、领域专注的自媒体作者,截止目前为止他们已经在百家号上发布了超过34篇的游戏内容,最近该作?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天