Meta 发布多语言语音翻译模型 SeamlessM4T：可翻译多达 100 种语言、语音或文本

2023-08-23 08:41 · 稿源：站长之家

站长之家(ChinaZ.com) 8月23日消息:周二，Meta 宣布推出 SeamlessM4T，一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络，它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译，支持「最多 100 种语言」，Meta 表示，它的目标是帮助说不同语言的人更有效地交流。

图片来自Meta

继续 Meta 相对开放的人工智能方法，它正在以研究许可（CC BY-NC 4.0）的形式发布 SeamlessM4T，允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign，Meta 称之为「迄今最大的开放式多模式翻译数据集，总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。

在 Meta 的博客中宣传的 SeamlessM4T 的特性中，该公司表示该模型能够执行语音识别（将语音转换为文本）、语音到文本翻译（将口语音频翻译为不同语言的文本）、语音到语音翻译（提供语音，输出翻译后的语音）以及文本到文本翻译（类似于 Google 翻译的功能）和文本到语音翻译（提供文本，将其翻译并以另一种语言呈现出来）。每个文本翻译功能支持将近 100 种语言，语音输出功能支持大约 36 种输出语言。

在 SeamlessM4T 的公告中，Meta 提到了 Babel Fish，一种虚构的鱼，来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》，它可以立即翻译任何口头语言：

构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的，因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信，我们今天宣布的工作在这一旅程中是向前迈出的重要一步。

它们是如何训练的？根据 Seamless4MT 研究报告，Meta 的研究人员「创建了一个多模式语料库，其中含有自动对齐的超过 470,000 个小时的语音翻译，称为 SeamlessAlign」（在前面已经提及）。然后，他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选，总计 406,000 个小时」。

与往常一样，Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」（从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成，由专业人员翻译）。根据研究论文，SeamlessM4T 的语音数据来自「400 万小时的原始音频，来源于一个公开可用的网络数据库」，其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。

Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术，大型语言模型（如 GPT-4）以其在语言之间的翻译能力而闻名。但是，在音频处理方面，最近这项技术变得非常热门。在九月份，OpenAI 发布了自己的开源语音到文本翻译模型，名为 Whisper，它可以在音频中识别语音并将其翻译成文本。

SeamlessM4T 扩展了多语言翻译的趋势，并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上（类似于 Meta 之前的一些音频处理技术）——减少了错误，增加了翻译的效率。

关于 SeamlessM4T 如何运作的更多技术细节可以在 Meta 的网站上获得，其代码和权重（实际训练的神经网络文件）可以在 Hugging Face 上找到。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
抖音上线地方方言自动翻译功能由多语言翻译模型等提供支持

抖音宣布正式上线地方方言自动翻译功能。创作者可以使用该功能，“一键”将多种方言视频转化出普通话字幕，方便公众观看。本次上线的地方方言自动识别及翻译功能由火山引擎技术团队提供技术支持，采用了自研的自监督预训练模型和多语言翻译模型，实现了极少量标注数据条件下识别方言的能力，且训练效率提升一倍，有效有效提升了多语言翻译的性能，同时大幅降低了模型训练的资源消耗。
微信iOS版升级，新增多语言翻译功能

微信iOS版正式升级至8.0.42版本，虽然更新日志依旧简洁明了，仅提及“解决了一些已知问题”，但此次升级后，微信新增了多语言翻译功能，这一改变将为海外旅游、涉外工作等人群带来便利。在新版微信中，用户只需点击“我”-“设置”-“通用界面”，即可找到新增的翻译功能。这一功能的加入，无疑为用户提供了更多可能性和便利。
微信iOS 8.0.42正式版发布新增多语言翻译功能

微信iOS版近日推出了8.0.42正式版更新，新版本中加入了一项实用的新功能:多语言翻译。在最新版本的微信中，点击“我”-“设置”-“通用”界面，就能看到新增的“翻译”功能。用户在微信聊天、朋友圈、网页及图片中使用翻译功能时，文字会被翻译成所选语言。
ElevenLabs推AI工具“AI Dubbing”，可将语音翻译成20多种语言

美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品，该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放，被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

AI语音翻译 AIDubbing AI头条
Meta发布Llama 2-Long模型处理长文本计算量需求减少40%

Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下，保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

Meta AI头条
AI初创公司Captions发布多语言视频翻译应用Lipdub

AI视频编辑初创公司Captions发布了一款名为"Lipdub"的新应用，用于将视频片段翻译成28种语言。该应用支持多种语言，包括法语、印地语、西班牙语、意大利语、葡萄牙语、日语等，甚至可以将视频翻译成德克萨斯俚语、Z世代用语、海盗语和婴儿语。AI配音的初创公司引起了众多投资者的兴趣，像英国的Papercup和以色列的Deepdub等初创公司已筹集了数百万美元。

Lipdub 视频翻译
微信iOS8.0.42正式版更新：新增多语言翻译、更改部分功能

微信iOS版本于9月19日发布了8.0.42正式版更新，尽管官方并未公布具体更新内容，但据IT之家和用户的测试，该版本带来了多项改进。在微信聊天、朋友圈、网页及图片中使用翻译功能时，文字就会被翻译为所选语言，支持简体中文、繁体中文、英语、韩语、日语等多种语言，用户可以自行体验。此外，据用户@妇产科主任的发现，微信iOS版8.0.42正式版还有以下三项细节改进： 1、长按翻译结果，新增了一个“更换语言”按钮； 2、点击微信-我-钱包，新增了一个“经营账户”的入口，专为商家推出的收款账户； 3、点击小程序-右上角小人图标，新增了“我的评价”入口，这里可以看到对所有小程序的评价。
Meta悄然发布Llama 2 Long AI模型

Meta最近发布了Llama2LongAI模型，该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术，Meta的研究人员提高了这个AI模型的性能，使其能够更好地处理长文本和复杂任务。强调了合作的重要性，指出不是每个企业都拥有高级的数据工程和数据科学技能，因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

Meta
AltDiffusion：提供多语言文本到图像的解决方案

AltDiffusion是一种创新的多语言文本到图像的扩散模型，旨在解决现有文本到图像模型仅支持有限语言的问题。它支持18种不同语言，通过多种巧妙的训练技巧，如知识蒸馏和与已经预训练的仅支持英语的模型的结合，以及概念对齐和质量提升等步骤，实现了多语言文本到图像的转化。这一研究为多语言人工智能领域的进一步研究和应用提供了有力支持。

AltDiffusion 扩散模型
Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法，用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性，特别是在涉及大规模外部知识源的场景中。

知了zKnown:致力于信息降噪 / 阅读提效的个人知识助手

知了 zKnown 是一款 AI-Native 构建的个人知识助手，专注于信息降噪和阅读提效。它通过多端同步、多渠道总结、长文本支持等功能，帮助用户高效地管理和整理信息。产品的主要优点包括：- 多端同步：用户可以在移动app、桌面客户端、网页版、小程序等多个平台同步使用。- 多渠道总结：支持微信公众号、知乎、简书、36Kr、少数派等多个渠道的文章总结。- 长文本支持：最长支持总结3万字的文章内容。- 摘要导出：用户可以将摘要保存到 Notion、Flomo 等平台。- 产品背景：知了 zKnown 致力于通过 AI 技术提升用户的阅读和信息管理效率，适合需要高效处理大量信息的用户。

信息管理阅读提效 AI助手

MBox AI Meet:实时转录与会议总结的谷歌会议扩展

MBox AI Meet是一款免费Chrome扩展，专为Google Meet设计，提供实时转录和自动生成会议总结的功能。它利用AI技术帮助用户在会议中专注于讨论，而无需担心记笔记。该工具通过实时转录捕捉会议的每一个细节，并在会议结束后自动生成总结，确保用户不会错过任何重要信息。MBox AI Meet的隐私优先策略确保会议安全，不存储任何音频或视频内容。此外，该扩展还计划在未来更新中增加更多AI功能，如发言人识别、实时AI助手等。

AI 会议管理实时转录

Klee:本地安全AI，保障数据隐私。

Klee是一款macOS原生的AI助手应用程序，专注于本地处理数据，确保数据安全和隐私。它使用先进的AI技术，如RAG（检索增强生成）和开源大型语言模型，如Llama 3和Mistral，为用户提供高效、智能的笔记、搜索和知识管理功能。Klee的主要优点包括本地运行以保护隐私、支持团队协作、免费使用以及优化的macOS体验。

AI助手 macOS原生数据隐私

Kipps.AI:快速构建AI助手，提升业务效率

Kipps.AI 是一个在线平台，允许用户在短短两分钟内构建自己的AI助手，并将其集成到业务中。该平台支持多种数据源，如PDF、Notion、网站链接和文本，用户只需提供这些数据，Kipps.AI 会处理其余部分。它还与常用的工具如GoDaddy、Wordpress、Drupal、Squarespace、Magento和Wix等进行集成，使得用户可以轻松地将AI助手集成到现有的业务流程中。

AI助手自动化数据处理

CrossPrism for MacOS:图像识别、标注和关键词生成工具

CrossPrism for MacOS 是一款专为摄影师设计的图像识别、标注和关键词生成工具。它利用多核 CPU、GPU 和神经引擎，能够识别物种、生成标题和描述，并支持模型训练的可定制性。用户可以在本地自动标注无限量的原始照片，确保所有照片安全地存储在 Mac 上，无需担心云服务中断、数据锁定或文件传输问题。其20多个专家模型可以对从鸟类到地标的各种内容进行分类，并提供新的视角来整理目录和重新发现旧照片。此外，它还支持视频处理、Lightroom 插件、图像质量评估等功能，使其成为一个强大的筛选工具。

图像识别照片管理 AI

ZETIC.ai:构建零成本的设备端AI。

ZETIC.ai提供了一种革命性的设备端AI解决方案，使用NPU技术帮助企业减少对GPU服务器和AI云服务的依赖，从而显著降低成本。它支持任何操作系统、任何处理器和任何目标设备，确保AI模型在转换过程中不损失任何核心功能，同时实现最优性能和最大能效。此外，它还增强了数据安全性，因为数据在设备内部处理，避免了外部泄露的风险。

设备端AI NPU 成本节约

Kerqu.Ai:一站式AI内容生成器，助力跨境电商提升效率。

Kerqu.Ai是一个为跨境电商卖家提供一站式AI解决方案的平台，整合了先进的AI技术，帮助用户节约成本、提升品牌影响力和销售转化率。产品通过AI技术实现模特换场景、AI图片创作、批量抠图、图片变高清等功能，同时提供一键撰写文案、优化文案和多语言翻译服务，满足多站点经营需求。

AI 跨境电商图像处理

ReviewHawk:通过分析用户评论，降低用户流失率。

ReviewHawk是一个专注于分析应用商店评论的工具，旨在帮助企业降低用户流失率，获取用户反馈，从而改善产品。它通过数据驱动的决策和用户满意度分析，帮助企业了解用户真正想要的功能，从而提升用户留存率和产品满意度。

用户反馈产品优化数据驱动

Airtable Cobuilder:快速创建与管理数据的应用程序

Airtable Cobuilder 是一款强大的应用程序构建工具，旨在通过简单的拖放界面和AI辅助功能，帮助用户快速创建和管理数据。它允许用户连接和简化他们最关键的数据，通过可视化数据、自定义视图和集成其他业务工具，提高团队协作和数据管理的效率。该工具特别适合需要高度定制化和灵活性的业务应用场景。

应用程序构建数据管理团队协作

Alertfor:追踪网络信息，及时获取答案变化

Alertfor 是一个在线平台，通过其专有的AQTA (Ask Question Track Answer) 流程，允许用户提交复杂问题，并在网页上寻找最相关的答案。它通过持续追踪提供连续的更新，确保用户能够获得准确且及时的信息。

信息追踪自动更新网络查询

Unskool:家长支持工具，助力家庭教育

Unskool是一个由家长为家长制作的辅助工具，旨在简化家庭教育过程。它通过去除繁琐的行政工作，让家长能够专注于创造一个丰富的学习环境，让家长和孩子都能茁壮成长。Unskool提供了跟踪、记录和灵感激发的功能，并通过人工智能生成定制的、按需的课程计划，帮助家长更高效地进行家庭教育。

家庭教育学习跟踪课程计划

AI Generated Diagram:智能生成图表工具

AI Generated Diagram 是一款利用人工智能技术生成图表的工具。它通过用户输入的提示（prompts）来创建图表，支持多种布局类型，如水平布局（Horizontal）。用户可以通过编辑、配置等操作来调整图表的细节，并支持导出为SVG格式或导出数据。该工具不仅提高了设计图表的效率，还通过AI技术提升了图表的美观度和准确性。

AI 图表生成数据可视化

Free AI Image Extender:使用人工智能扩展图像边界

AI Image Extender 是一款利用人工智能技术扩展图像边界的工具，通过生成新内容与现有图像无缝融合，增强图像的视觉延展性。该产品通过先进的AI算法，能够智能识别图像内容并生成自然过渡的扩展区域，适用于需要图像扩展或背景生成的各种场景。

图像编辑 AI技术无缝扩展

Capacities:一个为你的思维打造工作室的APP

Capacities是一个旨在改善人们思考方式和工作流程的应用程序。它通过使用对象而非传统文件和文件夹来组织信息，帮助用户更直观地理解和连接复杂的信息结构。该应用支持网络化笔记，使用户能够自然地构建信息网络，激发新的创意。Capacities还提供AI助手，帮助用户与笔记中的对象动态互动，并提高写作质量。此外，该应用注重数据安全和隐私保护，符合GDPR标准，数据存储在欧盟的加密服务器上。

笔记 AI助手信息管理

CLASI:高质量、类人同声传译系统

CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟，采用多模态检索模块来增强特定领域术语的翻译，利用大型语言模型（LLMs）生成容错翻译，考虑输入音频、历史上下文和检索信息。在真实世界场景中，CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例（VIP），远超其他系统。

同声传译多语言人工智能

image-matting:AI抠图项目，使用开源模型实现图像抠图。

image-matting 是一个基于开源模型 briaai/RMBG-1.4 的AI抠图项目。该项目旨在通过学习AI技术、GUI开发、前端学习以及i18n国际化等技术，实现本地模型算法的图像抠图功能。它支持单张和批量抠图，用户可以通过拖拽和粘贴的方式快速进行图像处理。项目还提供了打包后的运行文件下载链接，方便用户使用。

AI 图像处理开源

OnlyPans:AI定制周晚餐计划

OnlyPans是一个利用人工智能技术为用户提供定制化晚餐计划的应用程序。它通过与用户的简短聊天来了解用户的预算、口味偏好、语言习惯、饮食限制以及日常生活的忙碌程度，然后快速生成符合用户需求的晚餐计划。随着用户使用时间的增长，OnlyPans会不断学习和优化，提供更加个性化的服务。此外，OnlyPans还提供智能购物清单功能，帮助用户避免食品浪费和不必要的紧急购物。OnlyPans注重用户隐私保护，承诺不会出售用户的任何信息。

AI 个性化健康饮食

Excel Dashboard AI:将Excel转换为仪表板和报告的AI工具。

Excel Dashboard AI是一款利用人工智能技术，将Excel数据快速转换为交互式仪表板和分析报告的工具。它通过自然语言处理能力，允许用户以对话形式与数据进行交流，从而迅速获得洞察。产品的主要优点包括快速生成多样化的数据分析维度、自然语言编辑和锁定分析视角、一键生成交互式仪表板、AI解读图表含义以及将仪表板转换为详尽的分析报告等。

数据分析 AI 自然语言处理

清影 AI 视频生成服务:基于 AI 技术生成视频内容的智能服务。

清影 AI 视频生成服务是一个创新的人工智能平台，旨在通过智能算法生成高质量的视频内容。该服务适合各种行业用户，能够快速便捷地生成富有创意的视觉内容。无论是商业广告、教育课程还是娱乐视频，清影 AI 都能提供优质的解决方案。该产品依托于先进的 GLM 大模型，确保生成内容的准确性与丰富性，同时满足用户个性化需求。提供免费试用，鼓励用户探索 AI 视频创作的无限可能。

AI 视频生成内容创作

Tempest AI:无需编码，10分钟构建游戏

Tempest AI是一个无需编码即可快速构建游戏的平台。它利用强大的AI助手帮助用户从零开始创建游戏，支持动态角色、适应性任务和互动世界。用户可以通过拖放编辑器构建世界，设计游戏机制，并通过故事构建器控制游戏叙事。Tempest AI不仅适合游戏开发者，也适合那些希望探索创意和互动叙事的爱好者。

Meta 发布多语言语音翻译模型 SeamlessM4T：可翻译多达 100 种语言、语音或文本

今日大家都在搜的词：

热文

站长商机