首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta发布全新AI翻译大模型,实时语音转换不超2秒

2023-12-21 18:00 · 稿源:站长之家

要点:

  • Meta发布了全新的AI翻译大模型,实现实时语音转换延迟不超过2秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。

  • 发布的翻译模型系列名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个模型已经开源。

  • 为确保翻译准确性和避免滥用,Meta采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。

站长之家(ChinaZ.com)12月21日 消息:Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。

image.png

地址:https://ai.meta.com/blog/seamless-communication/

在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。

为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。

为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。

总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

举报

  • 相关推荐
  • Meta新品发布,技术路线与影目INMO“撞车”,中国智造先行优势凸显

    三星Galaxy S25系列专为学生群体打造,融合AI生产力、影像创作与性能释放。通过Galaxy AI实现智能笔记、实时翻译等功能提升学习效率;搭载多摄系统与AI影像引擎,支持复杂场景拍摄;配备骁龙8芯片和优化散热系统,兼顾游戏娱乐与续航表现。轻薄设计搭配多款配色,满足个性化需求,现可通过教育优惠活动实惠入手。

  • 苹果首款智能眼镜曝光:无显示屏 类似Meta、小米

    虽然苹果开发了配置非常强劲全面的Vision Pro,但苹果也没打算放弃更轻便的智能眼镜。 据名记马克古尔曼(Mark Gurman)最新报告,苹果将在未来12至16个月内推出智能眼镜。 这款产品没有显示屏,定位与Meta、小米等产品类似,配备摄像头、收音和播放,需要连接iPhone实现数据处理。 功能应该跟此前产品都类似,可以实现拍照、录像、听音乐等常规操作。 预计还能通过新版S

  • 亚马逊入局竞逐AR眼镜行业,Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

    亚马逊正加速布局AR眼镜市场,开发两款产品:面向物流司机的"Amelia"和面向消费者的"Jayhawk"。科技巨头纷纷入局,Meta、谷歌、苹果等均在研发相关产品。中国消费级AR眼镜市场2025年上半年增长显著,销量达26.2万台,同比增长73%。行业预计未来三年规模有望达千亿级别,AR眼镜正从"小众玩具"迈向"大众智能终端"。

  • 硬核创新比肩华为,Momenta首度荣膺WNEVC 2025全球新能源创新技术

    9月27日,2025世界新能源汽车大会在海口开幕。会上,Momenta凭借其全场景量产辅助驾驶方案Mpilot,荣获“全球新能源汽车创新技术”奖项。该方案基于全国首个量产“端到端大模型”,实现全场景智能驾驶,覆盖复杂道路环境,极大减轻驾驶员负担。目前,Momenta合作车型超160款,覆盖奔驰、宝马、丰田等全球主流车企。未来,公司将持续推动无人驾驶技术规模化落地,助力智能出行产业发展。

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • 数贸会今日开幕!每日互动展台人气火爆,GAI Station引领AI办公新体验

    2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司(展位7A-T022)集中展示了AI产业实践与数据流通领域成果,重点推出10万元级智能工作站GAI+Station,集成写作、会议纪要、智能问答等功能,内置8大模型能力,破解成本与安全痛点。其“发数站”战略打通数据高效流通链路,已在医疗、交通等多领域落地,“数智绿波”应用覆盖全国30多个省市,通行效率提升20%以上。此外,AITA超级营销助手实现升级,机器狗互动表演吸引关注。展会期间将举办10余场专业发布,涵盖数据要素、大模型应用等行业实战,助力企业把握数字化机遇。

  • 霸榜双雄齐步走!Century Games专列直达东京电玩展

    世纪华通旗下Century Games为参加2025东京电玩展(TGS2025)量身定制了游戏主题“专列”,覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间,公司包下途经展馆的列车广告位,车厢内贴满《Whiteout Survival》与《Kingshot》海报,串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置,以两款游戏标志性场景为背景,结合本地化舞台节目与互动体验,强化品牌影响力。此次营销不仅为展会预热,更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • realme真我GT8系列官宣10月发布

    真我官方宣布将于10月发布GT8系列新机,包括GT8和GT8 Pro两款旗舰机型。GT8 Pro作为七周年献礼旗舰,将采用顶级2K直屏、骁龙8 Gen3芯片和2亿像素潜望长焦镜头,在影像、性能和外围配置上实现全方位升级,堪称真我史上最强旗舰,引发市场广泛关注。

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

今日大家都在搜的词: