首页 > 传媒 > 关键词  > 网易易盾最新资讯  > 正文

网易易盾AI团队包揽“语音关键词识别”双赛道冠军

2021-10-25 17:19 · 稿源:站长之家用户

IMG_256

近日,第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)公布“长短视频多语种多模态识别挑战赛”(Video Keyword Wakeup Competition)-— 汉语长短视频直播语音关键词(VKW)任务最终成绩。

历时 4 个月的征集与评选,网易易盾在VKW任务中,以综合指标第一名的成绩击败来自海内外的 61 支队伍,在验证集的 3 个场景上均取得大幅超出基线25%的效果,坐拥“受限”与“非受限”赛道的双料冠军。

这是网易易盾继视觉、深度伪造、自然语义识别等方向大赛夺冠之后,在语音方向的又一突破和进展,彰显了网易易盾在人工智能领域的综合技术实力,语音自定义关键词识别准确度达实用级别。

一、大赛有哪些挑战?

两大并行指标、三类媒体形式

自 1990 年开创以来,该系列会议已成功召开了 15 届,每年都会推出不同的语音识别任务。

本次挑战赛,由腾讯科技ASR&OCR oteam联合清华大学、西北工业大学、数据堂、中国计算机学会语音对话与听觉专委会发起,聚焦时下业界最为关注的三类媒体形式——长视频、短视频、直播场景,考察模型在场景失配下的语音内容理解与识别能力。

IMG_257

挑战赛提供规模巨大数据集,训练数据集涵盖 1505 小时普通话朗读数据,并提供长视频、短视频、直播场景各 5 小时有标注数据供场景微调,各 5 小时有标注数据用于在开发集关键词列表上进行系统优化和调参,各 20 小时有标注数据用于评价提交系统。

本次比赛的评价指标与国际接轨,采用语音关键词的整体精准度(Precision)、召回率(Recall)与ATWV指标(Actual Term-weighted Value)作为并行评测指标,兼顾不同目标,增加了识别任务的难度。

精准度及召回率:

即语音中全部关键词的识别情况,反映系统对于当前词表的综合性能。

TWV指标:

即每个关键词上平均TWV值,反映系统对于不同频次关键词检测效果的平均性能。

三个赛道的成果展示:

IMG_258

网易易盾nisp_speech 团队在引入了多项特色增强技术之后,在短视频场景测试集中,定位准确率高达0.88,召回率高达0.93,不同频次关键词检测效果的平均性能高达0.93,在“场景适配”和“关键词定位”的算法精度上取得第一,达到灵活适配多场景、支持用户自定义语音关键词的理想效果。

二、我们是如何实现的?

独创BBS-KWS解决方案的背后

网易易盾首创一种颇具实用价值的关键词检测算法(BBS-KWS),即一套基于端到端 ASR 模型的 KWS 算法。ASR 模块中使用 CTC-based 方法搭建,通过引入综合大主干(big backbone)、关键词偏移(biasing keywords)、混合音节建模(mixed syllable modeling units)提升关键词候选路径的准召能力,通过引入关键词多级匹配、模糊匹配、关键词打分约束最终的决策,并引入大数据半监督学习,改善模型在更复杂语音环境下的适应能力。

IMG_259

图| BBS-KWS算法流程

基于三大主要特点命名:

第一个B代表大主干(big backbone),算法中引入了Conformer结构作为基础,在模型前期引入更多卷积层提升特征表达能力,在重点捕获语义的编码层拓宽了多头注意力层。模型主干的能力被大大提升;

第二个B代表关键词偏移(biasing keyword),算法在ASR解码过程中引入了基于语言模型的自适应热词权重,引导解码过程更偏向关键词;

第三个S代表混合音节建模(mixed syllable modeling unit),算法引入了更小的建模单元音节,以获得更好的泛化能力;

此外,KWS中的多级匹配,模糊匹配能处理部分KWS问题中OOV的问题,对算法的提升明显。VKW任务中的难点之一是场景失配,BBS-KWS中的声学模型也通过多轮次的半监督学习提升场景适应能力,获得更高的精度。

BBS-KWS开发便捷,针对新增自定义关键词的场景可以灵活地适配,大大提升召回,对精度的把控主要依靠关键词打分及工作点的选择上。未来针对关键词的自适应关键点及区分误召回方面仍有提升空间。

IMG_260

图| 易盾 nisp_speech 的团队成员

为了提升效果,易盾nisp_speech 团队设计了一系列算法实验,做了很多优化。“有赖于日常积累,我们团队以相对平缓的节奏完成了本次竞赛任务,”网易易盾资深计算机语音算法工程师杜彬彬表示,团队内部的充分交流与合作可以激发创新。在比赛准备过程中,每一位成员直接参与各项baseline效果的提升,通过内部榜单看进展,并各自学习训练过程中的优质经验。

三、我们的技术有哪些应用?

专注AI识别,与产业应用结合

关键词检测,是语音识别的核心领域之一,其目的在于识别语音材料中的特定词汇是否出现以及出现的位置,有利于促进机器更好理解多语种、长短句的语意,对语音内容检测的准确率产生最直接的影响。

一站式、多场景应用

成立于 2016 年的网易易盾,以敏感内容检测起家,在语音识别、视频识别、文本识别等计算机感知领域的技术储备雄厚,在落地应用上也拥有着诸多的实践经验。当前,网易易盾语音关键词识别技术已成功应用于点播、直播、IM私聊、语音社交等场景中的不良内容检测。

IMG_261

监管合规策略布控

“音频检测”,是易盾内容安全检测技术之一,核查语音是否涉及色情、政治、谩骂、广告等关键词,综合理解文本语义环境,一网打尽若干种类型的内容风险。

易盾技术团队构建了“自主发现-精细排查-循环迭代”的完整技术链路,能够灵活高效响应紧急问题,并形成了算法极速定制机制,能够在短周期内训练出满足客户需要的个性化算法模型,进一步确立了内容安全领域技术能力的领先性。

截止目前,网易易盾“语音检测”解决方案为广播电视、陌生人社交、在线音乐等行业客户保驾护航,提供智能解析、关键词定位、语义理解、声纹检测等服务,累计过检时长超 3 亿小时。

四、总结

语音识别所面对的挑战有别于文本、图像识别:

语音中的敏感内容检测并不是一步到位,先得把音频转换成文字,这个过程十分复杂,AI机器不仅要理解语音,而且得分析语义,做出最佳转换决策。小语种、方言、语音、语调、语速、背景音、噪音都会导致语音中“关键词”定位的准确率下降。

IMG_262

image.png

独创的关键词检测算法(BBS-KWS),在业界权威大赛受到认可,意味着易盾在合作中能够为企业提供更优质的音视频解决方案。全面升级的语音内容检测能力,将帮助娱乐社交行业解决合规审核不足、人工成本高企的众多问题,助力新形态产品轻松应对“风控”与“运营”环节。

后疫情时代,语音社交以便捷的优势悄然步入日常生活,语音数据迎来了爆炸式增长。另一方面,政策制定愈发明晰,监管态度趋严,可以预见的是,国家越来越重视运用互联网技术和信息化手段开展互联网内容生态治理,营造清朗的网络空间。

未来,网易易盾也将持续针对数字网络时代的敏感内容识别输出新技术,进一步扩大应用范围,不断提升核心效果。

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 相约2021北京LVS,网易易盾分享半监督、自监督算法在内容安全领域的落地

    近日,以“新技术,新机会”为主题的2021 LiveVideoStackCon 北京站如期召开。人与人、人与机器之间的交互将更加身临其境,视觉和听觉感官刺激前所未有的被满足,技术的升级正在创造想象中的新应用。作为多媒体技术领域的盛会,大会聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、交通、制造、旅游、电商、金融、社交、游戏、智能设备、IC等行业领域。众所周知,互联网平台在确保线上内容安全时?

  • 网易云音乐重启IPO

    今年8月,网易云音乐通过上市聆讯,不过随后有消息传出称,网易云音乐或推迟启动香港IPO。就在昨日晚间,网易云音乐上载全新的聆讯后资料集并通过港交所上市聆讯,联席保荐人为美银证券、中金及瑞信。

  • 网易游戏集体崩溃 原因系“机房故障”

    11月3日晚间,不少玩家反馈网易旗下众多游戏出现无法登陆等异常现象,随后网易多个游戏官微确认该消息,并在当晚陆续恢复正常。

  • 网易云音乐成功注册愈云商标

    近期,杭州网易云音乐科技有限公司于2020年申请的网愈云商标注册成功,国际分类涉科学仪器、教育娱乐。

  • 丁磊:网易在元宇宙技术和规划上已经做好准备

    昨日,网易发布2021年第三季度财报,财报发布后,网易CEO丁磊等高管参加了财报电话会议,回答分析师提问。

  • 网易最神秘的游戏团队人事变动曝光

    凤凰网科技讯 11月8日消息,有自称网易员工爆料称,公司互娱事业群发生人事大变动,从即日起,原海神事业部旗下的Zen工作室升为公司一级事业部,该工作室制作人金韬晋升为Zen事业部总裁,向网易游戏联席总裁丁迎峰、惠晓君汇报。对此,凤凰网科技向网易方面进行求证,截止发稿,未收到回复。值得注意的是,Zen工作室是网易最神秘游戏制作团队,地位比雷火事业部还高。Zen工作室旗下有《阴阳师》《哈利波特:魔法觉醒》多款网易爆款

  • 网易被纳入恒指成分股 美股盘前上涨3.9%

    【TechWeb】11月19日消息,今日,恒生指数公司宣布截至2021年9月30日的恒生指数系列季度检讨结果,网易-S(09999)被纳入恒生指数成份股,成为64只蓝筹股之一,变动将于12月6日生效。恒生指数是香港乃至国际股票市场最具影响力的指数之一,于1969年11月24日首次公开发布,也是反映香港股市价格趋势最有影响的一种股价指数。纳入恒生指数,一直是众多上市公司的重要争取目标。恒生指数成分股对股票市值、交易量等方面都有严格要求,只

  • 网易有道:将于年底终止义务教育学科培训

    近日高途、好未来、新东方已相继宣布将于年底结束K9学科类培训服务,现在网易有道也终止了相关业务。今天,网易有道发布公告,称为贯彻双减”政策,网易有道积极推进战略转型,将于12月31日正式终止义务教育阶段学科培训业务。目前,网易有道的业务重点已经由学科课后辅导转向原有的智能学习硬件、素质教育、成人教育和教育信息化四大业务板块。另外,为响应国家职业教育的政策部署,网易有道进一步加码对成人教育的投入。近期网易

  • 网易游戏《阴阳师》配乐入围好莱坞音乐传媒奖

    近日,网易旗下的旗舰 IP 手游《阴阳师》天域篇角色主题曲《Broken Hero》获得了2021 HMMA 好莱坞音乐传媒奖提名,将与《古墓丽影:重装上阵》、《Free Fire》等全球热门手游共同竞逐手游类最佳原创歌曲奖。作为表彰游戏、影视、广告等视觉媒介优秀音乐作品的专业奖项,HMMA 背靠着一个由全球知名作曲家、音乐家、制片人等组成的评审团,在音乐领域极具行业指标性和含金量。而此次《阴阳师》获得 HAMA 的青睐的《Broken Hero》,通

  • 网易云音乐上线摸鱼计算器 友:夺笋啊

    18日,网易云音乐上线摸鱼计算器,并表示,“摸鱼”虽好,可不要贪摸哦,正确听歌有助于提升工作效率!官方还给出了一个计算公式,用每天的上班听歌时间除以每天的工作时间然后乘以全年工作时间乘以听歌流量即可得出你一年的摸鱼流量。

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天