首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta发布全新AI翻译大模型,实时语音转换不超2秒

2023-12-21 18:00 · 稿源:站长之家

要点:

  • Meta发布了全新的AI翻译大模型,实现实时语音转换延迟不超过2秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。

  • 发布的翻译模型系列名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个模型已经开源。

  • 为确保翻译准确性和避免滥用,Meta采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。

站长之家(ChinaZ.com)12月21日 消息:Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。

image.png

地址:https://ai.meta.com/blog/seamless-communication/

在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。

为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。

为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。

总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

举报

  • 相关推荐
  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • Meta整合AI团队实力跃升,OpenAI/微美全息多维技术发展锚定前沿未来

    Meta在AI领域面临激烈竞争,正重组团队加速产品开发。其AI部门将分为产品团队和AGI基础部门,同时保持FAIR研究部门的独立性。OpenAI以65亿美元收购Jony Ive创立的设备公司,计划开发"物理AI"设备。Anthropic发布新一代AI模型Claude Opus4和Sonnet4,在基准测试中击败OpenAI和谷歌。微美全息(WIMI.US)布局AI大模型、人形机器人、AR/VR等多个前沿领域,推动AI从技术突破向价值创造跃迁。全球AI竞争白热化,模型加速融入千行百业,开源整合成为新焦点。

  • Meta拟重金加码AI赛道,传将斥资超百亿美元投资Scale AI

    Meta 正与人工智能数据服务公司 Scale AI 商讨一项巨额投资,金额可能高达或超过 100 亿美元……

  • Meta想要用AI搞定广告制作流程的“每一步自动化”

    即便AI生成视频广告“风险重重”,但 Meta 似乎仍旧想将这项技术推进到极致……

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 2025最新全球AI大模型排名,国内外模型动态洗牌(实时更新平台推荐)

    2025年全球AI大模型竞争进入白热化阶段,OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期,仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示:1)GPT-4.5综合80.4分领跑;2)Claude3.7编程领域领先;3)Gemini2.0多模态标杆;4)国产DeepSeek R1推理速度提升3倍;5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车,如DeepSeek R1仅耗资600万美元达到GPT-4水平,字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出,如文心一言4.0方言交互准确率92%。开源生态爆发,通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

  • BYDFi 亮相首尔Meta Week 2025,聚焦Web3愿景与全球合规战略

    韩国首尔,2025年6月26日 —— 全球领先的加密货币交易平台 BYDFi 将参与2025年首尔 Meta Week:METACON(SMW2025),活动于6月26–27日在首尔 COEX 会展中心三楼礼堂举行。BYDFi 是 SMW2025官方合作伙伴之一,同列的还有三星、谷歌、英特尔、Spotify、Kakao、NAVER Cloud 和 GitHub 等知名科技公司。BYDFi 在 SMW2025 的参展亮点作为 SMW2025官方合作伙伴之一,BYDFi 的参与体现了其在不断发展的 Web3和数字�

  • 山姆·奥特曼称Meta用上亿美元“挖角”失败:OpenAI顶尖人才没人跳槽

    “Meta已经开始向我们团队很多人提出超级夸张的报价,”奥特曼在节目中表示,“比如 1 亿美元的签约金,还有更高的年薪……”