站长之家(ChinaZ.com)6月19日 消息:日前,Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音。
与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。
为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。
Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。
与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。
Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。
不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
(举报)