思必驰荣获IWSLT 2022英中同声传译冠军

2022-06-10 17:48 · 稿源：站长之家用户

在2022年国际口语机器翻译评测比赛（简称IWSLT）中，思必驰-上海交大联合团队(AISP-SJTU)凭借卓越的技术优势，获得“英-中同声传译”(Speech-to-Text)赛道冠军。

2022年第十九届国际口语机器翻译大会（International Conference on Spoken Language Translation ，简称 IWSLT）在爱尔兰都柏林落幕。IWSLT是国际上最具影响力的口语机器翻译评测比赛之一，今年设置了同声传译、离线语音翻译等7个任务。思必驰-上海交大联合团队(AISP-SJTU)本次参加英-中同声传译任务，以优异的成绩获得Speech-to-Text赛道第一名。

论文标题:The AISP-SJTU Simultaneous Translation System for IWSLT2022

任务和背景

同声传译是仅在部分语音或文本输入的情况下，逐步生成翻译结果的任务。同声传译包含两个子任务:

1）Text-to-Text，将流式语音识别（ASR)系统的输出文本实时从英语翻译成中文普通话;

2）Speech-to-Text:将英文语音实时翻译成中文普通话文本。

目前同声传译任务主要有两种技术路线:

1）级联技术。即整个系统由ASR系统和翻译（MT)系统组成，输入源语言音频信号，先经过ASR系统转写成源文本，再经过MT系统翻译为目标语言。

2）端到端技术。即系统直接将源语言音频翻译为目标语言文本，不生成中间字符。相对于级联系统上亿的数据规模，端到端系统的训练数据极其匮乏，导致其效果远低于级联系统。

图1. 级联语音翻译

图2. 端到端语音翻译

同声传译的系统通过两种方式进行评估:

1）翻译质量，使用标准BLEU指标评估;

2）翻译延时，使用流式翻译的标准指标进行评估，包括平均比例（AP)、平均滞后(AL)、可微平均滞后(DAL)。

最后，比赛主办方根据不同延时范围的翻译质量对提交的同声传译系统进行排名。对于英-中同声传译系统，延时范围设置为:

1）低延时，AL数据和数据处理

文本数据预处理

比赛方提供大量的双语语料和单语语料，通过规则过滤和匹配模型筛选出优质的文本数据。规则过滤包括:太长的单词，长度严重失衡的中英双语句子，过滤带HTML标签的句子，删除重复等等。另外，训练一个分类模型，过滤语义不匹配的真实双语和伪双语数据。

文本数据扩增

数据增强是提升模型效果行之有效的方案。首先使用真实双语数据训练中-英和英-中离线模型。然后这两个离线模型分别生成中文单语和英文单语的伪双语数据，用于回译和知识蒸馏。最后，让翻译模型在ASR生成的伪双语数据上进行微调，来提升翻译模型的鲁棒性。文本数据统计如下:

表1. MT训练数据

语音数据处理

比赛主办方提供了6个英文语音数据集，共3000小时。采用传统的语音特征提取方法FBank，特征维度设置为80，每帧窗口大小25毫秒，窗口滑动步长10毫秒。

语音数据扩增

通过增加音频扰动的方法来获得扩增音频，包括声音大小、速度、基线扰动等。除了CoVoST2这个数据集扩增1/3，其他数据集的音频数据扩增3倍。音频数据统计如下:

表2. ASR训练数据

技术解读

思必驰-上海交大团队首次参加这类语音翻译比赛，在充分总结前人经验的基础上，积极开拓创新，下面对其关键技术进行解读。

技术1:引入预训练语言模型，大幅提升ASR性能

近年来，预训练语言模型（LM），例如BERT，在NLP领域大放异彩，尤其在低资源场景，LM作用更加明显。如何将语言模型引入ASR模型呢?首先看一下ASR的模型结构，如下图

图3. ASR模型和E2E模型结构

ASR模型整体是transformer架构，但是Decoder拆分为Jointer和Predictor，其中，Predictor仅包含6层单向自注意力机制，Jointer仅包含6层交叉注意力机制。预训练语言模型可以替代Predictor，从而ASR的解码端可以充分利用大数据的优势，提升解码能力。与传统的预训练语言模型BERT相比，这里的语言模型需要做两方面的改变:

1）将传统的双向自注意力机制改为单向注意力机制;

2）预测目标改为预测下一个token。用表1中的数据训练分别训练一个中文语言模型和英文语言模型，并分别用于端到端模型（E2E)和ASR模型，实验表明，增加LM后对二者均有大幅提升。

表3. 预训练语言模型效果

技术2:无限左看，随机右看

流式翻译模型的编码端一般使用单向注意力机制，进一步地，可以设定一个固定的右看窗口，实现部分双向注意力机制，来提升编码能力，如图4，每个token都可以“看”到所有左侧内容，即无限左看，但只能往右看到2个token。本次比赛在CAAT[1]模型的基础上做了更进一步的改进，提出Dynamic-CAAT，即在训练过程中，将固定的右看窗口设为随机取值，在预测过程中，当有新token输入时，使用双向注意力机制重新计算所有token编码。

图4. 翻译模型编码端注意力机制

实验表明，Dynamic-CAAT在各类延时级别上都有效果。这样整个系统只需要一个翻译模型，而不是训练多个模型来适应不同的延时范围。

图5. Dynamic-CAAT的效果

评测结果

IWSLT2022综述文章中[2]，主办方给出的英-中评测结果显示思必驰-上海交大团队（AISP-SJTU）提交的系统在低、中、高三个延时范围内，都超过第二名约2BLEU(具体实验数据见综述文章143页)。

图6. speech-to-text英-中评测结果

总结

本次比赛，结合各种技术手段打造了英-中同声传译最优基线，也对端到端模型做了初步探索。端到端模型在速度和误差传导上比级联模型更占优势，因此，未来我们希望进一步研究有效的数据扩增手段，来提升端到端模型的翻译效果。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
讯飞翻译机亮相声博会：从实时翻译到智能纪要，一站式解决跨国商务沟通难题

第八届世界声博会暨2025科大讯飞全球1024开发者节于11月2日至6日在合肥举办，主题为“更懂你的AI”。大会重点展示了讯飞双屏翻译机2.0，通过1米穹顶降噪技术、多麦克风阵列和AI翻译技术，精准解决跨语言沟通难题。设备支持实时翻译80多种外语及200多种方言，并具备会议纪要智能生成和二维码分享功能，提升商务会谈效率。此举体现了“人工智能+”在产业创新中的深度融合，推动全球协作智能化发展。

世界声博会人工智能+ 科大讯飞
马斯克称未来人类意识能上传至机器人可用于月球和火星基地建设

在2025年11月7日举行的特斯拉年度股东大会上，埃隆马斯克系统阐述了公司在人形机器人、自动驾驶、芯片研发与生产扩张等方面的战略规划，并更新了企业使命，展现出将技术愿景转化为现实应用的清晰路径。马斯克指出，随着Neuralink等脑机接口技术的发展，人类有望在20年内实现将意识快照”上传至特斯拉人形机器人，使其具备类人意识。人形机器人将被部署于月球与火�

特斯拉人形机器人自动驾驶
小米17 Pro妙享背屏对话翻译上线：正屏说中文背屏即时翻译

小米13 Pro系列近日上线妙享背屏对话翻译功能，实测对着手机说中文即可实时显示译文，效率很高。背屏还新增大头贴模式，支持拍摄动态照片，并加入多款动态壁纸。游戏方面新增植物合成与雪人推箱子两款休闲游戏，搭配复古风格保护壳，操作简洁有趣。作为核心亮点，背屏采用与主屏同源的龙晶玻璃，支持LTPO自适应刷新率，横向覆盖后摄模组，辨识度拉满。小米总裁卢伟冰表示，该系列大胆创新获用户积极反馈，下一代旗舰将继续沿用背屏设计并加大研发投入。

小米17Pro 妙享背屏对话翻译
荐人类的心声，被AI听见了

过去一年里，一个看似无意义的Labubu，成为了颇具情绪号召力的符号。这只表情夸张、眼神狡黠的小兽，从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能，也不传达身份，却让无数年轻人愿意为之排队、抽签。而这，离不开更大的消费变迁。事后诸葛来看，Labubu的走红并非偶然，而是精准踩中了一个趋势——在这个时代，人们似乎越来越愿意为“情绪价值”付费。与此�

文章搜索核心标签情绪价值
荐AI强攻翻译行业，人工译员面临“生存大战”

在会被AI轻易取代的行业中，翻译长期被列为高风险领域之一。眼下，这一观点不再是人们对于未来的臆测，而是有数据和案例印证的事实:“翻译界哈佛”蒙特雷明德国际研究学院宣布关停，带来的震动犹如一颗重磅炸弹在翻译界炸开，这所久负盛名的学院走向衰败与AI浪潮的冲击密切相关;网易有道词典“AI同传”用户量突破2000万，引发外界对AI翻译商业化落地的广泛关注，�

AI翻译翻译行业蒙特雷明德
微信宣布治理恶意外部链接：6类违规内容将遭限访

微信安全中心发布公告，宣布将严打平台内传播的欺诈、色情、赌博、违规直播等违规内容，以及利用第三方服务或漏洞生成的恶意链接。平台将持续监控并核查违规内容，一经核实将依据法律法规及平台协议严肃处理。针对六类非法外部链接采取限制访问措施，包括诈骗、色情、赌博、违规直播、服务被滥用及第三方漏洞链接。微信提醒用户提高警惕，仔细甄别信息来源，切勿轻信陌生链接，避免在不明确网站上填写敏感信息，以防个人信息泄露造成损失。

微信安全外部链接治理违规内容
联想贺志强：在硅基时代让人类三大科技理想照进现实

11月8日，联想创投在上海举办2025 CEO年会，主题为“硅基潮涌，创新世界”。贺志强回顾十年投资历程，强调坚持“投早、投小、投科技”理念，已投资超300家早期科技企业。未来将聚焦半导体、人工智能、机器人等核心赛道，通过CVC2.0模式赋能被投企业，计划再投300家优秀科创公司，推动中国智造高质量发展，助力人类三大理想照进现实。

联想创投科技投资贺志强
科大讯飞1024发布：讯飞翻译APP迭代焕新，同声传译+音视频翻译重构沟通体验

在2025科大讯飞全球1024开发者节期间，讯飞翻译APP迎来关键升级，重点强化同声传译功能。通过搭载全新语音同传大模型，实现翻译更准、响应更快；新增实时分享、记录留存、悬浮字幕等特性，支持跨场景高效应用。该产品已在东盟博览会等国际场合验证实用性，结合IDC报告八大维度第一的权威背书，彰显了AI翻译技术从研发到落地的全链条优势，为跨语言沟通提供简单如母语的体验。

科大讯飞 AI翻译大模型
小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

在第七届小鹏科技日上，小鹏汽车发布全新人形机器人IRON，其拟人化程度领先，拥有仿生脊柱、肌肉及柔性皮肤，配备3D曲面显示与灵巧双手，实现22个自由度。搭载3颗图灵AI芯片，算力达2250TOPS，支持对话、行走等智能交互，并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力，实现环境感知与反馈。IRON将优先应用于商业场景，并与宝钢合作探索工业巡检。小鹏宣布开放SDK，邀请全球开发者共建机器人应用生态。

小鹏科技日人形机器人 IRON

今日大家都在搜的词：

热文

3 天
7天

思必驰荣获IWSLT 2022英中同声传译冠军

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

讯飞翻译机亮相声博会：从实时翻译到智能纪要，一站式解决跨国商务沟通难题

马斯克称未来人类意识能上传至机器人可用于月球和火星基地建设

小米17 Pro妙享背屏对话翻译上线：正屏说中文背屏即时翻译

荐人类的心声，被AI听见了

荐AI强攻翻译行业，人工译员面临“生存大战”

微信宣布治理恶意外部链接：6类违规内容将遭限访

联想贺志强：在硅基时代让人类三大科技理想照进现实

科大讯飞1024发布：讯飞翻译APP迭代焕新，同声传译+音视频翻译重构沟通体验

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

何小鹏回应机器人IRON里是真人质疑：感谢认可

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

站长商机