首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言

2023-06-19 11:50 · 稿源:站长之家

站长之家(ChinaZ.com)6月19日 消息:日前,Meta平台的人工智能研究部门推出了名为Voicebox机器学习模型,可以将文本转换为语音。

与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。

image.png

为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。

Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。

与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。

Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。

不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。

官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

举报

  • 相关推荐
  • Kandinsky1:3.3亿参数强大模型文本生成逼真图像

    计算机视觉和生成建模领域取得了显著进展,推动了文本到图像生成的不断发展。各种生成架构,包括基于扩散的模型,在提高生成图像的质量和多样性方面发挥了关键作用。研究人员强调了解决内容问题的需求,建议采取实时监管或强大的分类器来减轻不良输出。

  • Meta发布Llama 2-Long模型 处理长文本计算量需求减少40%

    Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下,保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

  • Meta悄然发布Llama 2 Long AI模型

    Meta最近发布了Llama2LongAI模型,该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术,Meta的研究人员提高了这个AI模型的性能,使其能够更好地处理长文本和复杂任务。强调了合作的重要性,指出不是每个企业都拥有高级的数据工程和数据科学技能,因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

  • 开源机器学习库vLLM 提升大语言模型推理速度

    大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

  • 突破性文本生成视频方法LVD,利用LLM创建动态场景布局

    针对从文本提示生成视频所面临的挑战,一支研究团队引入了一种新方法,名为LLM-GroundedVideoDiffusion。核心问题在于,现有模型难以准确表示文本提示中描述的复杂时空动态。这种方法有潜力在内容创作和视频生成等各种应用中开辟新的可能性。

  • 训练成本降低16倍,极限压缩42倍!开源文本生成图片模型

    StableDiffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。Wuerstchen生成图片展示根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美StableDiffusion等目前最强开源扩散模型。

  • Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

    Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法,用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性,特别是在涉及大规模外部知识源的场景中。

  • Meta开源数字水印Stable Signature,极大增强生成式AI安全

    全球社交、科技巨头Meta在官网宣布,开源数字水印产品StableSignature,并公开论文。StableSignature是由Meta和INRIA联合开发成,可将数字水印直接嵌入到AI自动生成的图片中,防止其非法用途。通过StableSignature将数字水印嵌入到AI图片中,可极大避免此类事件的发生。

  • 直接抄Character.AI作业?Meta发布虚拟聊天机器人 Gen AI Personas

    Meta计划推出名为「GenAIPersonas」的AI聊天机器人服务,旨在挽回社交媒体平台的用户流失问题。这款AI聊天机器人将具备个人助理功能,不同性格的聊天机器人选择以及帮助用户更好表达自己的能力。虽然Meta希望通过这一产品吸引年轻用户,但目前的反应复杂,不确定性较大。

  • 研究人员推出深度学习模型RECAST 改进地震预测

    来自加州伯克利分校、圣克鲁斯分校以及慕尼黑工业大学的研究人员发表论文,阐述了一种崭新的模型,将深度学习引入地震预测领域。该模型被命名为RECAST,相比自1988年问世以来改进有限的当前标准模型ETAS,RECAST可利用更大的数据集,提供更高的灵活性。你会看到它朝着正确的方向发展。