Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言

2023-06-19 11:50 · 稿源：站长之家

站长之家（ChinaZ.com）6月19日消息:日前，Meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型，可以将文本转换为语音。

与其他文本转语音模型不同的是，Voicebox能够执行许多未经过训练的任务，包括编辑、去除噪音和样式转换。

为训练模型，Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法，该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用，Meta并没有发布Voicebox，以及将来可以支持很多应用。

Voicebox是一种生成模型，可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练，从而可以用于许多下游任务。

与特定应用程序训练的生成模型不同，Voicebox在训练过程中使用文本作为训练目标，训练过程中，模型会预测语音片段，中间部分被屏蔽，根据周围的音频和文本转录本进行推理学习，学习使用文本生成自然语言语音。

Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明，在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好，错误率下降了1%，而在以前的文本到语音模型中，合成语音的错误率下降了45%到70%，”Meta写道。

不过Voicebox也有一定限制。由于它已经过有声读物数据的训练，因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性，例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。

官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

（举报）

Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言

Kandinsky1：3.3亿参数强大模型，文本生成逼真图像

Meta发布Llama 2-Long模型处理长文本计算量需求减少40%

Meta悄然发布Llama 2 Long AI模型

开源机器学习库vLLM 提升大语言模型推理速度

突破性文本生成视频方法LVD，利用LLM创建动态场景布局

荐训练成本降低16倍，极限压缩42倍！开源文本生成图片模型

Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

荐Meta开源数字水印Stable Signature，极大增强生成式AI安全

直接抄Character.AI作业？Meta发布虚拟聊天机器人 Gen AI Personas

研究人员推出深度学习模型RECAST 改进地震预测

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

基于安卓16的三星 One UI 8 本月发布首个测试版本

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

三星推出新型微显示技术，加剧 AR 眼镜竞争

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

苹果高管称：10 年后，可能 iPhone 将不复存在！

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

站长商机

Meta发布机器学习模型Voicebox：可从文本生成语音 精通六门语言

热文

站长商机

Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言