首页 > 传媒 > 关键词  > 端到端最新资讯  > 正文

思必驰荣获IWSLT 2022英中同声传译冠军

2022-06-10 17:48 · 稿源: 站长之家用户

在2022年国际口语机器翻译评测比赛(简称IWSLT)中,思必驰-上海交大联合团队(AISP-SJTU)凭借卓越的技术优势,获得“英-中同声传译”(Speech-to-Text)赛道冠军。

2022年第十九届国际口语机器翻译大会(International Conference on Spoken Language Translation ,简称 IWSLT)在爱尔兰都柏林落幕。IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,今年设置了同声传译、离线语音翻译等7个任务。思必驰-上海交大联合团队(AISP-SJTU)本次参加英-中同声传译任务,以优异的成绩获得Speech-to-Text赛道第一名。

论文标题:The AISP-SJTU Simultaneous Translation System for IWSLT2022

任务和背景

同声传译是仅在部分语音或文本输入的情况下,逐步生成翻译结果的任务。同声传译包含两个子任务:

1)Text-to-Text,将流式语音识别(ASR)系统的输出文本实时从英语翻译成中文普通话;

2)Speech-to-Text:将英文语音实时翻译成中文普通话文本。

目前同声传译任务主要有两种技术路线:

1)级联技术。即整个系统由ASR系统和翻译(MT)系统组成,输入源语言音频信号,先经过ASR系统转写成源文本,再经过MT系统翻译为目标语言。

2)端到端技术。即系统直接将源语言音频翻译为目标语言文本,不生成中间字符。相对于级联系统上亿的数据规模,端到端系统的训练数据极其匮乏,导致其效果远低于级联系统。

图1. 级联语音翻译

图2. 端到端语音翻译

同声传译的系统通过两种方式进行评估:

1)翻译质量,使用标准BLEU指标评估;

2)翻译延时,使用流式翻译的标准指标进行评估,包括平均比例(AP)、平均滞后(AL)、可微平均滞后(DAL)。

最后,比赛主办方根据不同延时范围的翻译质量对提交的同声传译系统进行排名。对于英-中同声传译系统,延时范围设置为:

1)低延时,AL数据和数据处理

文本数据预处理

比赛方提供大量的双语语料和单语语料,通过规则过滤和匹配模型筛选出优质的文本数据。规则过滤包括:太长的单词,长度严重失衡的中英双语句子,过滤带HTML标签的句子,删除重复等等。另外,训练一个分类模型,过滤语义不匹配的真实双语和伪双语数据。

文本数据扩增

数据增强是提升模型效果行之有效的方案。首先使用真实双语数据训练中-英和英-中离线模型。然后这两个离线模型分别生成中文单语和英文单语的伪双语数据,用于回译和知识蒸馏。最后,让翻译模型在ASR生成的伪双语数据上进行微调,来提升翻译模型的鲁棒性。文本数据统计如下:

表1. MT训练数据

语音数据处理

比赛主办方提供了6个英文语音数据集,共3000小时。采用传统的语音特征提取方法FBank,特征维度设置为80,每帧窗口大小25毫秒,窗口滑动步长10毫秒。

语音数据扩增

通过增加音频扰动的方法来获得扩增音频,包括声音大小、速度、基线扰动等。除了CoVoST2这个数据集扩增1/3,其他数据集的音频数据扩增3倍。音频数据统计如下:

表2. ASR训练数据

技术解读

思必驰-上海交大团队首次参加这类语音翻译比赛,在充分总结前人经验的基础上,积极开拓创新,下面对其关键技术进行解读。

技术1:引入预训练语言模型,大幅提升ASR性能

近年来,预训练语言模型(LM),例如BERT,在NLP领域大放异彩,尤其在低资源场景,LM作用更加明显。如何将语言模型引入ASR模型呢?首先看一下ASR的模型结构,如下图

图3. ASR模型和E2E模型结构

ASR模型整体是transformer架构,但是Decoder拆分为Jointer和Predictor,其中,Predictor仅包含6层单向自注意力机制,Jointer仅包含6层交叉注意力机制。预训练语言模型可以替代Predictor,从而ASR的解码端可以充分利用大数据的优势,提升解码能力。与传统的预训练语言模型BERT相比,这里的语言模型需要做两方面的改变:

1)将传统的双向自注意力机制改为单向注意力机制;

2)预测目标改为预测下一个token。用表1中的数据训练分别训练一个中文语言模型和英文语言模型,并分别用于端到端模型(E2E)和ASR模型,实验表明,增加LM后对二者均有大幅提升。

表3. 预训练语言模型效果

技术2:无限左看,随机右看

流式翻译模型的编码端一般使用单向注意力机制,进一步地,可以设定一个固定的右看窗口,实现部分双向注意力机制,来提升编码能力,如图4,每个token都可以“看”到所有左侧内容,即无限左看,但只能往右看到2个token。本次比赛在CAAT[1]模型的基础上做了更进一步的改进,提出Dynamic-CAAT,即在训练过程中,将固定的右看窗口设为随机取值,在预测过程中,当有新token输入时,使用双向注意力机制重新计算所有token编码。

图4. 翻译模型编码端注意力机制

实验表明,Dynamic-CAAT在各类延时级别上都有效果。这样整个系统只需要一个翻译模型,而不是训练多个模型来适应不同的延时范围。

图5. Dynamic-CAAT的效果

评测结果

IWSLT2022综述文章中[2],主办方给出的英-中评测结果显示思必驰-上海交大团队(AISP-SJTU)提交的系统在低、中、高三个延时范围内,都超过第二名约2BLEU(具体实验数据见综述文章143页)。

图6. speech-to-text英-中评测结果

总结

本次比赛,结合各种技术手段打造了英-中同声传译最优基线,也对端到端模型做了初步探索。端到端模型在速度和误差传导上比级联模型更占优势,因此,未来我们希望进一步研究有效的数据扩增手段,来提升端到端模型的翻译效果。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 马斯克称未来人类意识能上传至机器人 可用于月球和火星基地建设

    在2025年11月7日举行的特斯拉年度股东大会上,埃隆马斯克系统阐述了公司在人形机器人、自动驾驶、芯片研发与生产扩张等方面的战略规划,并更新了企业使命,展现出将技术愿景转化为现实应用的清晰路径。 马斯克指出,随着Neuralink等脑机接口技术的发展,人类有望在20年内实现将意识快照”上传至特斯拉人形机器人,使其具备类人意识。 人形机器人将被部署于月球与火�

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 小米17 Pro妙享背屏对话翻译上线:正屏说中文 背屏即时翻译

    小米13 Pro系列近日上线妙享背屏对话翻译功能,实测对着手机说中文即可实时显示译文,效率很高。背屏还新增大头贴模式,支持拍摄动态照片,并加入多款动态壁纸。游戏方面新增植物合成与雪人推箱子两款休闲游戏,搭配复古风格保护壳,操作简洁有趣。作为核心亮点,背屏采用与主屏同源的龙晶玻璃,支持LTPO自适应刷新率,横向覆盖后摄模组,辨识度拉满。小米总裁卢伟冰表示,该系列大胆创新获用户积极反馈,下一代旗舰将继续沿用背屏设计并加大研发投入。

  • 人类的心声,被AI听见了

    过去一年里,一个看似无意义的Labubu,成为了颇具情绪号召力的符号。 这只表情夸张、眼神狡黠的小兽,从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能,也不传达身份,却让无数年轻人愿意为之排队、抽签。 而这,离不开更大的消费变迁。事后诸葛来看,Labubu的走红并非偶然,而是精准踩中了一个趋势——在这个时代,人们似乎越来越愿意为“情绪价值”付费。 与此�

  • AI强攻翻译行业,人工译员面临“生存大战”

    在会被AI轻易取代的行业中,翻译长期被列为高风险领域之一。 眼下,这一观点不再是人们对于未来的臆测,而是有数据和案例印证的事实:“翻译界哈佛”蒙特雷明德国际研究学院宣布关停,带来的震动犹如一颗重磅炸弹在翻译界炸开,这所久负盛名的学院走向衰败与AI浪潮的冲击密切相关;网易有道词典“AI同传”用户量突破2000万,引发外界对AI翻译商业化落地的广泛关注,�

  • 联想贺志强:在硅基时代让人类三大科技理想照进现实

    11月8日,联想创投在上海举办2025 CEO年会,主题为“硅基潮涌,创新世界”。贺志强回顾十年投资历程,强调坚持“投早、投小、投科技”理念,已投资超300家早期科技企业。未来将聚焦半导体、人工智能、机器人等核心赛道,通过CVC2.0模式赋能被投企业,计划再投300家优秀科创公司,推动中国智造高质量发展,助力人类三大理想照进现实。

  • 科大讯飞1024发布:讯飞翻译APP迭代焕新,同声传译+音视频翻译重构沟通体验

    在2025科大讯飞全球1024开发者节期间,讯飞翻译APP迎来关键升级,重点强化同声传译功能。通过搭载全新语音同传大模型,实现翻译更准、响应更快;新增实时分享、记录留存、悬浮字幕等特性,支持跨场景高效应用。该产品已在东盟博览会等国际场合验证实用性,结合IDC报告八大维度第一的权威背书,彰显了AI翻译技术从研发到落地的全链条优势,为跨语言沟通提供简单如母语的体验。

  • 每日互动方毅:以“标品-标类-标杆”三级推进,加速AI战略落地

    每日互动在创业20周年之际举办AI共创会,强调以数据智能为根基,通过“端详”方法论实现从数据到智慧的积累。公司推出个知·智能工作站,结合AI能力与专家经验,推动人机协同。战略上分“标品、标类、标杆”三层:标品打造通用工具,标类深耕垂直行业,标杆联合龙头企业共创解决方案。方毅提出“尽信AI不如无AI”,坚持人类在决策中的关键作用,并创造汉字“伭”作为AI简称,寄望人机共生未来。

  • 小鹏机器人会走猫步太像人了!小鹏发布新一代人形机器人IRON

    在第七届小鹏科技日上,小鹏汽车发布全新人形机器人IRON,其拟人化程度领先,拥有仿生脊柱、肌肉及柔性皮肤,配备3D曲面显示与灵巧双手,实现22个自由度。搭载3颗图灵AI芯片,算力达2250TOPS,支持对话、行走等智能交互,并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力,实现环境感知与反馈。IRON将优先应用于商业场景,并与宝钢合作探索工业巡检。小鹏宣布开放SDK,邀请全球开发者共建机器人应用生态。

  • 小米17 Pro系列妙享背屏新功能上线:包括对话翻译、新游戏等

    小米17系列妙享背屏功能将于10月29日正式上线,包含四大亮点:动态大头贴支持拍摄生动瞬间并新增明亮风格模板;对话翻译实现正屏输入、背屏即时显示译文;新增动态壁纸提升界面趣味性;配合游戏手机壳可畅玩《愤怒的小鸟》等经典游戏。该背屏还支持倒计时、音乐控制等实用功能,尺寸设计合理,投入超10亿元研发,体现小米对用户体验的重视。

今日大家都在搜的词: