首页 > 传媒 > 关键词  > 端到端最新资讯  > 正文

思必驰荣获IWSLT 2022英中同声传译冠军

2022-06-10 17:48 · 稿源: 站长之家用户

在2022年国际口语机器翻译评测比赛(简称IWSLT)中,思必驰-上海交大联合团队(AISP-SJTU)凭借卓越的技术优势,获得“英-中同声传译”(Speech-to-Text)赛道冠军。

2022年第十九届国际口语机器翻译大会(International Conference on Spoken Language Translation ,简称 IWSLT)在爱尔兰都柏林落幕。IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,今年设置了同声传译、离线语音翻译等7个任务。思必驰-上海交大联合团队(AISP-SJTU)本次参加英-中同声传译任务,以优异的成绩获得Speech-to-Text赛道第一名。

论文标题:The AISP-SJTU Simultaneous Translation System for IWSLT2022

任务和背景

同声传译是仅在部分语音或文本输入的情况下,逐步生成翻译结果的任务。同声传译包含两个子任务:

1)Text-to-Text,将流式语音识别(ASR)系统的输出文本实时从英语翻译成中文普通话;

2)Speech-to-Text:将英文语音实时翻译成中文普通话文本。

目前同声传译任务主要有两种技术路线:

1)级联技术。即整个系统由ASR系统和翻译(MT)系统组成,输入源语言音频信号,先经过ASR系统转写成源文本,再经过MT系统翻译为目标语言。

2)端到端技术。即系统直接将源语言音频翻译为目标语言文本,不生成中间字符。相对于级联系统上亿的数据规模,端到端系统的训练数据极其匮乏,导致其效果远低于级联系统。

图1. 级联语音翻译

图2. 端到端语音翻译

同声传译的系统通过两种方式进行评估:

1)翻译质量,使用标准BLEU指标评估;

2)翻译延时,使用流式翻译的标准指标进行评估,包括平均比例(AP)、平均滞后(AL)、可微平均滞后(DAL)。

最后,比赛主办方根据不同延时范围的翻译质量对提交的同声传译系统进行排名。对于英-中同声传译系统,延时范围设置为:

1)低延时,AL数据和数据处理

文本数据预处理

比赛方提供大量的双语语料和单语语料,通过规则过滤和匹配模型筛选出优质的文本数据。规则过滤包括:太长的单词,长度严重失衡的中英双语句子,过滤带HTML标签的句子,删除重复等等。另外,训练一个分类模型,过滤语义不匹配的真实双语和伪双语数据。

文本数据扩增

数据增强是提升模型效果行之有效的方案。首先使用真实双语数据训练中-英和英-中离线模型。然后这两个离线模型分别生成中文单语和英文单语的伪双语数据,用于回译和知识蒸馏。最后,让翻译模型在ASR生成的伪双语数据上进行微调,来提升翻译模型的鲁棒性。文本数据统计如下:

表1. MT训练数据

语音数据处理

比赛主办方提供了6个英文语音数据集,共3000小时。采用传统的语音特征提取方法FBank,特征维度设置为80,每帧窗口大小25毫秒,窗口滑动步长10毫秒。

语音数据扩增

通过增加音频扰动的方法来获得扩增音频,包括声音大小、速度、基线扰动等。除了CoVoST2这个数据集扩增1/3,其他数据集的音频数据扩增3倍。音频数据统计如下:

表2. ASR训练数据

技术解读

思必驰-上海交大团队首次参加这类语音翻译比赛,在充分总结前人经验的基础上,积极开拓创新,下面对其关键技术进行解读。

技术1:引入预训练语言模型,大幅提升ASR性能

近年来,预训练语言模型(LM),例如BERT,在NLP领域大放异彩,尤其在低资源场景,LM作用更加明显。如何将语言模型引入ASR模型呢?首先看一下ASR的模型结构,如下图

图3. ASR模型和E2E模型结构

ASR模型整体是transformer架构,但是Decoder拆分为Jointer和Predictor,其中,Predictor仅包含6层单向自注意力机制,Jointer仅包含6层交叉注意力机制。预训练语言模型可以替代Predictor,从而ASR的解码端可以充分利用大数据的优势,提升解码能力。与传统的预训练语言模型BERT相比,这里的语言模型需要做两方面的改变:

1)将传统的双向自注意力机制改为单向注意力机制;

2)预测目标改为预测下一个token。用表1中的数据训练分别训练一个中文语言模型和英文语言模型,并分别用于端到端模型(E2E)和ASR模型,实验表明,增加LM后对二者均有大幅提升。

表3. 预训练语言模型效果

技术2:无限左看,随机右看

流式翻译模型的编码端一般使用单向注意力机制,进一步地,可以设定一个固定的右看窗口,实现部分双向注意力机制,来提升编码能力,如图4,每个token都可以“看”到所有左侧内容,即无限左看,但只能往右看到2个token。本次比赛在CAAT[1]模型的基础上做了更进一步的改进,提出Dynamic-CAAT,即在训练过程中,将固定的右看窗口设为随机取值,在预测过程中,当有新token输入时,使用双向注意力机制重新计算所有token编码。

图4. 翻译模型编码端注意力机制

实验表明,Dynamic-CAAT在各类延时级别上都有效果。这样整个系统只需要一个翻译模型,而不是训练多个模型来适应不同的延时范围。

图5. Dynamic-CAAT的效果

评测结果

IWSLT2022综述文章中[2],主办方给出的英-中评测结果显示思必驰-上海交大团队(AISP-SJTU)提交的系统在低、中、高三个延时范围内,都超过第二名约2BLEU(具体实验数据见综述文章143页)。

图6. speech-to-text英-中评测结果

总结

本次比赛,结合各种技术手段打造了英-中同声传译最优基线,也对端到端模型做了初步探索。端到端模型在速度和误差传导上比级联模型更占优势,因此,未来我们希望进一步研究有效的数据扩增手段,来提升端到端模型的翻译效果。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 小米端到端辅助驾驶升级1000万Clips版本:7大显著提升跻身第一梯队!

    近日,雷军官宣小米汽车辅助驾驶升级到1000万Clips版本,那么升级后有何变化?小米汽车进行了回应。 相比于之前的300万Clips版本,1000万Clips版本的小米端到端辅助驾驶功能对复杂路况的应对更从容、决策更贴近于真实老司机”的驾驶习惯。 具体体现在: 加减速更柔和:拥堵场景下,跟车稳定性与起步响应速度提升,可提前识别复杂加塞行为并及时制动减速,减少顿挫感,

  • 小米端到端辅助驾驶1000万Clips版全量推送 雷军:加减速更柔和

    小米创办人雷军介绍,HAD小米端到端辅助驾驶1000万Clips版已经全量推送,支持小米SU7 Pro、小米SU7 Max、小米SU7 Ultra车型。 该版本加减速更柔和,驾乘体感更舒适;绕行更灵活,决策更果断;路口通过更顺畅,对道路理解更深度。 据了解,Clips指的是记录了人类司机驾驶行为的视频片段。每一段Clip都记录了司机在面对复杂场景时的思考和决策。这些Clips不仅包含了城市道路、高

  • 小米SU7系列正式推送1000万Clips版本端到端辅助驾驶

    小米汽车7月29日宣布为SU7系列车型推送1000万Clips版本的端到端辅助驾驶系统,覆盖SU7 Pro/Max/Ultra全系车型。新系统通过海量数据训练显著优化驾驶体验,在复杂路况决策能力和舒适性方面实现突破。相比此前300万Clips版本,新系统在三大核心场景表现提升显著:纵向控制舒适度提升57%,加减速更平顺;绕行成功率提升67%,窄路会车等场景决策更果断;路口通过率提升23%,能更好适应中国特色的"人车混行"规则。小米强调当前技术仍属L2+级别,需驾驶员全程保持注意力。此次升级标志着小米智能驾驶技术进入数据驱动新阶段,未来将通过OTA持续迭代优化系统。

  • 科沃斯“机器人核心部件及机器人本体制造项目”签约南浔

    7月28日,科沃斯集团机器人核心部件及机器人本体制造项目签约仪式在湖州市南浔区举行。该项目聚焦机器人未来产业相关的传动、减速、关节等核心部件及各类智能机器人本体的研发制造,计划投资2亿元,投产后预计可年产机器人关键核心部件约2000万件、产值超10亿元。南浔区领导表示将全力打造最优营商环境,科沃斯集团董事长钱东奇称该项目将成为集团第四大供应链板�

  • “生态+场景”破局低频困境,保险类APP突围呈两种解法

    文章分析了保险业从数字化向数智化转型的趋势,重点对比了中国人保和太平洋保险两款APP的运营策略。中国人保APP以"车险+健康+高频生活服务"构建生态闭环,通过加油、救援等高频场景提升用户活跃度;太平洋保险APP聚焦健康管理领域,打造专业医疗服务壁垒。两者分别面临功能冗余和场景单一的挑战,但共同验证了未来保险APP需平衡"广度连接"与"深度服务"的发展方向。

  • 暑期出境游还是鸿蒙5好用,轻松搞定流量、导航和翻译

    华为推出"鸿蒙一夏"暑期活动,为用户出境游提供全方位服务:1)华为天际通9.9元全球流量套餐解决上网难题;2)花瓣地图5.0版本支持160+国家中文导航;3)小艺翻译助手实现多场景实时翻译;4)华为浏览器提供全球旅行灵感推荐。活动期间可参与小红书互动赢取华为FreeClip耳机等好礼,升级鸿蒙5系统解锁更多功能。即日起至8月31日,一站式解决出境游核心痛点,让旅途更顺畅。

  • “找不到电视遥控”的美国人,撑起月入千万的垂类赛道

    来自市场研究公司 Nielsen 的数据显示,截至2022年,每个美国家庭平均配备2.3台电视,每个成年人平均每周会花32小时看电视。超高的电视设备密度和高频的使用习惯,在近年来催生出一个非常细分却吸金能力惊人的工具品类——电视遥控器 App。 电视遥控器 App,在一些情况下堪称刚需,例如,突然找不到原装遥控或遥控电池耗尽而没有准备备用电池。对于普遍配备多台电视的�

  • 时空壶新 T1翻译机,突破网络枷锁的暑期旅游神器

    暑期海外旅游热潮将至,但语言障碍和网络信号不佳成为两大难题。时空壶新T1翻译机凭借全球首个端侧翻译模型和先进AI技术,实现离线翻译重大突破,支持31种语言互译,覆盖98%主流旅游目的地语言。其流式翻译技术可实现0.2秒快速响应,"边说边译"让交流如母语般顺畅。设备还集成汇率换算、时差调整、紧急求助等实用功能,内置eSIM卡提供两年全球免费流量。这款突破性产品打破了网络和语言的双重枷锁,让游客能自由探索异国文化,享受无障碍的海外旅行体验。

  • 12年前就有人做过,如今这类产品终于冲上美榜Top1

    2013年,市面上曾出现过一款名为「LULU」的应用,因允许女性对认识的男性进行评分的新颖机制而走红。12年后的今天,一款功能类似的产品再度在美国市场掀起了讨论热潮,「Tea」一度登上美国 iOS 下载总榜 Top1,目前最新排名仅次于 ChatGPT。

  • 对话五条人AI MV主创:究竟是人带着AI飞,还是AI带着人类飞

    五条人的美学坐标,锚定在一些具体的意象上,比如县城、故事、人字拖,以及那个标志性的红色塑料袋。他们的音乐与视觉,植根于一种生猛、市井、充满“塑料感”的现实肌理之中。 这样一个极具草根性与现实质感的乐队,与当下最前沿的AIGC技术相遇,结果会是什么? 答案可能就在他们最新专辑同名曲《地球恋曲》的官方MV里。 身着银色宇航服的二人,背着一个巨大的�