首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本

2023-08-23 08:41 · 稿源:站长之家

站长之家(ChinaZ.com) 8月23日消息:周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。

369889300_946056619819708_693331134612217694_n.jpg

图片来自Meta

继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。

在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。

在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:

构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。

它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」

与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。

Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。

SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。

关于 SeamlessM4T 如何运作的更多技术细节可以在 Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到

举报

  • 相关推荐
  • 大家在看
  • 抖音上线地方方言自动翻译功能 由多语言翻译模型等提供支持

    抖音宣布正式上线地方方言自动翻译功能。创作者可以使用该功能,“一键”将多种方言视频转化出普通话字幕,方便公众观看。本次上线的地方方言自动识别及翻译功能由火山引擎技术团队提供技术支持,采用了自研的自监督预训练模型和多语言翻译模型,实现了极少量标注数据条件下识别方言的能力,且训练效率提升一倍,有效有效提升了多语言翻译的性能,同时大幅降低了模型训练的资源消耗。

  • 微信iOS版升级,新增多语言翻译功能

    微信iOS版正式升级至8.0.42版本,虽然更新日志依旧简洁明了,仅提及“解决了一些已知问题”,但此次升级后,微信新增了多语言翻译功能,这一改变将为海外旅游、涉外工作等人群带来便利。在新版微信中,用户只需点击“我”-“设置”-“通用界面”,即可找到新增的翻译功能。这一功能的加入,无疑为用户提供了更多可能性和便利。

  • 微信iOS 8.0.42正式版发布 新增多语言翻译功能

    微信iOS版近日推出了8.0.42正式版更新,新版本中加入了一项实用的新功能:多语言翻译。在最新版本的微信中,点击“我”-“设置”-“通用”界面,就能看到新增的“翻译”功能。用户在微信聊天、朋友圈、网页及图片中使用翻译功能时,文字会被翻译成所选语言。

  • ElevenLabs推AI工具“AI Dubbing”,可将语音翻译成20多种语言

    美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品,该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放,被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

  • Meta发布Llama 2-Long模型 处理长文本计算量需求减少40%

    Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下,保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

  • AI初创公司Captions发布多语言视频翻译应用Lipdub

    AI视频编辑初创公司Captions发布了一款名为"Lipdub"的新应用,用于将视频片段翻译成28种语言。该应用支持多种语言,包括法语、印地语、西班牙语、意大利语、葡萄牙语、日语等,甚至可以将视频翻译成德克萨斯俚语、Z世代用语、海盗语和婴儿语。AI配音的初创公司引起了众多投资者的兴趣,像英国的Papercup和以色列的Deepdub等初创公司已筹集了数百万美元。

  • 微信iOS8.0.42正式版更新:新增多语言翻译、更改部分功能

    微信iOS版本于9月19日发布了8.0.42正式版更新,尽管官方并未公布具体更新内容,但据IT之家和用户的测试,该版本带来了多项改进。在微信聊天、朋友圈、网页及图片中使用翻译功能时,文字就会被翻译为所选语言,支持简体中文、繁体中文、英语、韩语、日语等多种语言,用户可以自行体验。此外,据用户@妇产科主任的发现,微信iOS版8.0.42正式版还有以下三项细节改进: 1、长按翻译结果,新增了一个“更换语言”按钮; 2、点击微信-我-钱包,新增了一个“经营账户”的入口,专为商家推出的收款账户; 3、点击小程序-右上角小人图标,新增了“我的评价”入口,这里可以看到对所有小程序的评价。

  • Meta悄然发布Llama 2 Long AI模型

    Meta最近发布了Llama2LongAI模型,该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术,Meta的研究人员提高了这个AI模型的性能,使其能够更好地处理长文本和复杂任务。强调了合作的重要性,指出不是每个企业都拥有高级的数据工程和数据科学技能,因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

  • AltDiffusion:提供多语言文本到图像的解决方案

    AltDiffusion是一种创新的多语言文本到图像的扩散模型,旨在解决现有文本到图像模型仅支持有限语言的问题。它支持18种不同语言,通过多种巧妙的训练技巧,如知识蒸馏和与已经预训练的仅支持英语的模型的结合,以及概念对齐和质量提升等步骤,实现了多语言文本到图像的转化。这一研究为多语言人工智能领域的进一步研究和应用提供了有力支持。

  • Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

    Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法,用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性,特别是在涉及大规模外部知识源的场景中。

今日大家都在搜的词: