首页 > 传媒 > 关键词  > 自动语言识别技术最新资讯  > 正文

走向世界!全球语音、声学顶会 ICASSP 放榜,网易易盾论文中啦!

2023-06-08 11:32 · 稿源: 站长之家用户

每个科幻迷都向往着在未来能像和老朋友对话一样,用寥寥数语发动星际飞船,征服星辰大海;或者拥有钢铁侠的人工智能管家贾维斯,几句对话就能造出一套纳米战甲。其实这个画面离我们并不远——就像 iPhone 中的 Siri 一样同我们触手可及。它的背后是自动语言识别技术(Automatic Speech Recognition)。这项关键技术能将语音转换为计算机可识别的文字或命令,实现便捷、有效、智能的人机交互体验。

而随着深度学习等 AI 技术的发展,语音识别技术已经取得了巨大的进步——不仅识别准确度大大提高,而且能够更好地处理口音、噪声和背景音等问题。但随着技术在生活和业务中的不断应用,仍会遇到一些瓶颈,毕竟从理论研究到实际应用,从论文到产品,需要考虑太多的现实因素。如何让语音识别更好地辅助内容审核?如何让识别动作本身也能像人脑一样,根据对语境的理解,以更低的成本给出更准确的答案?网易智企旗下易盾 AI Lab 给出了新方法。

易盾又出黑科技,智企迈向全世界!

近日,全球语音、声学顶 级会议 ICASSP 2023 公布了论文入选名单,网易智企旗下易盾 AI Lab 提交的论文成功被录用。今年是第 48 届 ICASSP 大会,也是疫情后的第 一届线下大会,虽然大会官方还未公布最后录用了多少篇论文,但论文投递的数量相较往年上升了 50%,达到了惊人的 6,000+。

面对如此激烈的竞争,网易智企易盾 AI Lab 团队凭借一篇语音识别方向的论文《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改进,实现更强的模型结构)》脱颖而出,成功拿到了前往希腊罗德岛线下参会的门票。

“GIC”,助力语音识别更进一步

语音识别本质上是语音序列到文字序列的转化,而要完成这样的转化,一般会用到三类模型,CTC、Attention-based 和 RNN-Transducer,它们在完成任务的时候采用了不同的路径:

CTC:基于神经网络模型,在训练过程中通过反向传播来更新模型参数以最小化损失函数。该算法引入了“空白符”来表示无意义字符或者间隔符号。CTC 适合处理输入输出长度相差较大的数据,如语音识别中将声学特征映射为文本;

Attention-based:注意力机制,也是基于神经网络模型,并且使用一种称为“注意力”的技术来对输入进行加权汇聚。在每个时间步骤上,该模型会根据当前状态和所有输入计算出一个分布式权重向量,并将其应用于所有输入以产生一个加权平均值作为输出。这种方式可以使得模型更好地关注与当前预测相关的部分信息;

RNN-Transducer:转录器,这个算法结合了编码器-解码器框架和自回归建模思想,在生成目标序列时同时考虑源语言句子和已生成部分目标语言句子之间的交互作用。与其他两种方法不同,RNN-Transducer 没有明确区分编码器和解码器阶段,并且直接从源语言到目标语言进行转换,因此可以同时考虑源语言句子和已生成部分目标语言句子之间的交互作用。

相比后两者,虽然 CTC 具有天然的非自回归解码性质,解码速度相对快很多,但依然有着性能劣势:

1. CTC 算法设置了条件独立性假设,即 CTC 假设每个时间步的输出之间是独立的。这对语音识别任务来说并不合理,假如说“ji rou”这个发音,在不同的上下文中预测的文字内容应该不一样的。如果上文是“我喜欢吃”,接下来“鸡”的概率应该更高,同理如果上文是“他手臂有”,接下来“肌”的概率应该更高。如果通过 CTC 训练,很容易就会在忽略上文的前提下,输出“我喜欢吃肌肉”这样好笑的文本;

2.从建模的视角来看,Attention-based 模型和 RNN-Transducer 模型根据输入和之前时间步的输出预测当前时间步的输出,而 CTC 模型仅仅利用输入来预测当下的输出,在 CTC 模型的建模过程中,文本信息仅仅是作为一种监督信号回传给网络,并没有作为网络的输入显式促进模型的预测。

我们希望能在保留 CTC 解码效率的同时,尽可能地解决以上两点劣势。于是,我们想从 CTC 模型本身出发,设计轻量级的模块给基于 CTC 的模型引入文本信息,使得模型能够整合声学和文本信息,学习到文本序列上下文之间的相互作用,从而缓解 CTC 算法的条件独立性假设。但过程中,我们碰到了两个问题:如何在CTC模型(Encoder +CTC 结构)里注入文本信息?如何自适应地融合文本特征和声学特征?

为了实现上述目标,我们设计了 Gated Interlayer Collaboration(简写为GIC)机制。GIC 模块主要包含一个嵌入层(embedding layer)和一个门控单元(gate unit)。其中,嵌入层用于生成每一音频输入帧的文本信息,门控单元用于自适应地融合文本信息和声学信息。

具体地,我们的方法基于多任务学习(Multi-task Learning)框架,利用编码器模块(Encoder)中间层的输出计算辅助 CTC loss,整个网络的目标函数是最后一层的 CTC loss 和中间层辅助 CTC loss 的加权和。GIC 将网络中间层的预测,即 Softmax 输出的概率分布作为每一帧的软标签,点乘嵌入层矩阵之和作为每一帧的文本表征。最后,生成的文本表征和声学表征通过一个门控单元自适应地融合,成为一个新特征输入到下一层。此时的新特征融合了文本特征和声学特征,使得下一层的 Encoder 模块可以学习到声学序列上下文信息和文本序列上下文信息。整个模型的框架如下图所示:

在 Conformer 和 Transformer 这两个模型上的实验表明:

1. GIC 同时支持汉语和英语的场景识别,同时准确度均取得了显著的性能提升;

2. GIC 模型性能超过了同参数规模的 Attention-based 和 RNN-transducer 模型,并且具有非自回归解码的优势,带来数倍的解码速度提升;

3. 相对原始的 CTC 模型,GIC 在多个开源数据集有远超 10% 的相对性能提升。

Conformer 模型下的结论

Transformer 模型下的结论

GIC 为 CTC 模型的性能带来了很大的提升。相对原始的 CTC 模型,GIC 模块大约带来 2M 的额外参数,其中,计算中间层辅助 CTC loss 所用的线性层与最后一层是共享的,不会带来额外的参数。多个中间层共享嵌入层,带来 256*5000 约等于 1.3M 的参数。除此之外,多个门控单元的参数是 256*256*2*k,合计约 0.6M 的额外参数量。

领先技术造就先进业务

论文中的 GIC 已经应用在了网易易盾的内容审核业务中。

作为网易智企旗下一站式数字内容风控品牌,易盾长期专注于数字内容安全风控和反垃圾信息的技术研发和创新。其中,针对以声音作为载体的数字内容,易盾提供了多种音频内容审核引擎,包括歌曲、广播、电视节目、直播等各种类型的音频内容,及时检测和过滤含有敏感、违规、低俗,广告内容的语音,从而减少不良内容的社会影响,营造良好的网络环境。

针对有具体语义内容的音频,易盾通过语音识别技术将音频文件中的语音内容转写为文字内容,再利用检测模块分析和处理文本,从而实现对音频内容的自动化审核和过滤。因此,语音识别的准确率与音频内容的审核效率和准确性是息息相关的,会直接影响到客户开展业务的安全与稳定。

论文中的 GIC 在内容审核中的应用取得了显著的效果提升。在实际的应用过程中,需要调试的超参数有两个,分别是多任务学习系数 lambda 和中间层层数 k。在 18 层编码器结构中我们发现 k=5,lambda=0.5 有较好的实验效果。接着,我们会从这个设置开始尝试,不断微调以确定最 优的超参数。

幕后英雄:网易智企易盾 AI Lab

这不是易盾 AI Lab 团队第 一次获得这样规格的荣誉。

作为网易智企下设的始终走在人工智能研究前沿的技术团队,易盾 AI Lab 致力于围绕精细化、轻量化、敏捷化打造全面严谨、安全可信的 AI 技术能力,不断提升数字内容风控服务水平。在这之前,团队曾获得多项 AI 算法竞赛冠 军及重要奖励荣誉:

2019 年第 一届中国人工智能大赛 旗帜识别赛道最 高档 A 级证书

2020 年第二届中国人工智能大赛 视频深度伪造检测赛道最 高档 A 级证书

2021 年第三届中国人工智能大赛 视频深度伪造检测和音频深度伪造检测赛道两项最 高档 A 级证书

2021 年中国人工智能产业发展联盟“创新之星”、“创新人物”

2021 年第十六届全国人机语音通讯学术会议(NCMMSC2021)“长短视频多语种多模态识别竞赛”—汉语长短视频直播语音关键词(VKW)双赛道冠 军

2021 年获得浙江省政府颁发的科学技术进步奖一等奖

2022 年 ICPR 多模态字幕识别比赛(Multimodal Subtitle Recognition, 简称 MSR 竞赛,国内首 个多模态字幕识别大赛)赛道三“融合视觉和音频的多模态字幕识别系统”冠 军

未来已来,AI 的 iPhone 时刻已至。今天,易盾成功登上了语音学的学术殿堂;未来,技术将成就业务的方方面面,而网易易盾将始终伴您左右。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • 专家警告极端天气成地球新常态:全球变暖是主因

    有专家警告,破纪录的极端天气已成为地球一种新的常态。 放眼全球,多个地区迎来极端高温天气,比如意大利至少有18个城市进入高温红色警报”状态,热浪已导致至少5人死亡,而与高温相关急诊病例增加了10%,医院不堪重负。 北半球遭遇高温热浪之时,南美洲因极地高压经历了罕见严寒,阿根廷、智利、乌拉圭等国出现创纪录低温,部分地区最低气温降至零下18摄氏度�

  • TECNO发布全球最薄三折概念机PHANTOM Ultimate G Fold

    TECNO发布PHANTOM Ultimate G Fold概念机,采用创新双屏内折设计,配备9.94英寸柔性大屏,折叠状态下厚度仅11.49mm,展开后最薄处3.49mm,刷新三折手机轻薄纪录。其核心创新在于独特的G型三折结构,通过左右双内折实现屏幕完全内藏保护,并配备外屏保证折叠状态下的常规使用体验。该机采用精密双铰链系统,支持多角度悬停,搭配2000MPa高强度钢铰链和0.3mm超薄钛纤维背板,兼顾强度与轻薄。量产版将搭载高性能芯片、多焦段三摄系统和超5000mAh电池,重新定义旗舰折叠屏体验。

  • 小米手机全球销量最高系列!REDMI 15C入网:百元良心神机

    据博主完美编排数码”爆料,小米REDMI15C5G版本已经在国内入网,设备型号为2508CRN2BC。 前不久该机的渲染图已经被曝光,提供月光蓝、暮光橙、午夜黑和绿色四种颜色。 外观采用直屏直边的设计,正面是一块水滴屏,背部相机模组有些类似Redmi Note11T系列,配备双摄。 预计至少会有4GB128GB存储组合,后续可能会有其它规格。

  • 长红30多年,全球第一的冰淇淋公司要IPO

    当各家冰淇淋品牌“争奇斗艳”的时候,国际冰淇淋巨头“梦龙冰淇淋”也在这个热浪滚滚的七月迎来关键进展。 7月1日,梦龙冰淇淋公司正式完成了从联合利华集团的剥离。一直以来,联合利华的冰淇淋业务拥有和路雪、梦龙、可爱多等多个知名品牌,占据全球20%的市场份额,是名副其实的冰淇淋巨头。 若用2024年份额绝对值来计算,联合利华冰淇淋业务的体量约等于2个雀

  • 信然空压机在博顿温德姆酒店举办“全球首发”及“信然之夜”活动

    7月19日,信然集团在江苏徐州举办全球首发仪式,推出多款节能空压机新产品,包括超高压缩比螺杆空压机、高真空度真空泵等,平均节能30-50%以上。近200位行业专家和经销商参会,现场签约多家渠道商。信然定位打造世界级节能品牌,产品符合国家一级能效标准。活动展示了企业技术实力,彰显了在国家"节能降耗"政策下的产业布局。信然徐州生产基地作为重要制造基地,将持续为全球节能事业贡献力量。

  • 谭章熹博士出席 RISC-V 中国峰会 详解开源架构全球征程与中国机遇

    2025年7月16日,第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展,峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲,回顾了RISC-V从伯克利起步到全球发展的历程,强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出,RISC-V基础指令集仅40余条,结构简洁但高度模块化,适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态,预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元,占全球20%-30%。谭博士表示,RISC-V发展重心正向AI加速、数据中心等高性能场景迈进,将与x86、ARM展开竞争,成为数字时代承载国家技术主权与产业升级的重要基础。

  • 「大展宏图」的揽佬,如何引发一场全球文化风潮

    作为一个2023年才发布自己第一张专辑的说唱歌手,揽佬如今的全球影响力显然有些出乎大众意料。就在前不久,他才成为spotify上月听众数最高的rapper;紧接着,又超越周杰伦成为月听众数最高的华语歌手;最新消息,是登上了《环球时报》。 从《八方来财》到《大展宏图》,借助短视频的影响力,揽佬走出国门,走向世界,不仅让全世界都在听揽佬,更是向外输出了一种说唱�

  • 2299元起!三星Galaxy Watch 8/Classic/Ultra智能手表发布

    三星今晚除了三款折叠屏手机之外,还推出了三款Galaxy Watch 8系列智能手表。 具体型号分别是Galaxy Watch 8、Galaxy Watch 8 Classic、Galaxy Watch 8 Ultra,起售价2299元。 三款产品统一采用了天圆地方”的设计语言,表壳为圆角矩形,表盘则是传统圆形。 三星Galaxy Watch 8 提供慕岩灰、星辉银两种配色,有44mm和40mm两种尺寸。 内部结构重新设计,组件集成度提升30%,整体厚度较上代减少1

  • 已开启预载!国产3A《明末:渊虚之羽》登Steam全球热销榜第二

    国产魂系角色扮演游戏《明末:渊虚之羽》今天上午8点,已经在Steam、XBOX平台开启预载,PS5将于10点开启。 截至发稿,该作已登上Steam全球热销榜第二(剔除免费游戏与Steam Deck),按收入排名仅次于独立游戏《PEAK》。 游戏Steam标准版售价248元、豪华版298元。