站长之家首页 > 传媒 > 语音识别最新资讯 > 正文

语音识别新范式:完全的“端到端”模型,优势在哪里?

2020-02-19 09:29 · 稿源:站长之家用户投稿

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’。”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语。

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域。

语音识别新范式

以自然语言处理的子领域“语音识别”为例,从 2012 年引入深度学习技术开始,语音识别的研究热点经历了三个阶段:

2011 年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别 

2014 年前后,基于 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别 

2017 年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入,是语音识别领域上一次范式转换的起点,那么从 2017 年开始,基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识别的新范式正在形成。

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN),主要目标是改进传统语音识别框架中的声学模型算法。 2014 年前后引入LSTM+CTC的方案,理论上实现了端到端,但因为效果不好,实际使用中仍然会加上语言模型。

而 2017 年之后基于自注意力机制的完全端到端模型,才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务,充分利用深层神经网络和并行计算的优势,取得最优结果。在 2019 年秋天的语音领域顶会 Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法,几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

第一,Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强。在实际应用中,这个特性意味着对于句子中的同音字或词,新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果。 

第二,解决了传统的语音识别方案中各部分任务独立,无法联合优化的问题。单一神经网络的框架变得更简单,随着模型层数更深,训练数据越大,准确率越高。因此企业可以使用更大量的专有数据集来训练模型,得到相应场景下更准确的识别结果。 

第三,新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快。这意味着转写同样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成,也更能满足实时转写的需求。

Transformer-XL进一步释放注意力模型的优势

Transformer-XL神经网络结构是由循环智能联合创始人杨植麟博士(共同第一作者),与Google AI、卡内基梅隆大学共同推出。在全部 5 个单词和字符级语言建模标准数据集取得 state of the art 结果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

从名字也可以看出来,Transformer-XL通过引入循环机制和相对位置编码,主要解决了超长输入的问题。Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模。序列越长可以考虑的上下文音频信息越丰富,识别越准确。也就是说,即使超长的句子,也能得出更加准确的结果。

在面向企业的商用场景下,语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模。2019 年,在循环智能联合创始人、CTO张宇韬博士带领的工程团队努力下,循环智能已经将最前沿的Transformer-XL技术成果落地到实际应用中。经过一年多的积累,循环智能目前在金融、教育和互联网服务领域经过了几十万小时的数据训练。

在一家市值百亿美金互联网服务公司的实际测试中,循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

从学术前沿到商业落地

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究,那些曾经辉煌的神经网络结构,很难再取得技术突破,也不符合技术发展的方向。但是,很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构。

原因有二。首先,通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言,采用前沿学术成果意味着需要从一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代,需要的时间更长。

工程能力世界顶级的 Google,从学术前沿的成果到大规模商业落地,大概花了两年多的时间,终于成功将基于Transformer的算法引入其核心搜索产品中:

2017 年 6 月,“Attention is all you need”论文发表 ,Google 在这篇论文中介绍了 Transformer,一种基于自注意力机制(self-attention mechanism)的全新神经网络结构。短短两年多时间,该论文在 Google 学术中的引用量达 5956 次,毫无疑问是近几年自然语言理解领域影响力最大的论文之一。 2018 年 6 月,Google 发布了基于 Transformer 的 BERT 模型,被称为近几年 NLP 领域最具里程碑意义的进展。 

2019 年 10 月,Google 在官方博客中宣布,已经将这项技术应用于搜索中,增强了对用户搜索意图的理解。

新算法模型带来的效果提升非常显著。过去一直以来,当我们向 Google 的搜索框中输入一个完整句子的时候,Google 的做法是用句子中的关键词去匹配相应的搜索结果,并不关心句子的实际含义。正因为如此,早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词,所以他们通常不会输入一个自然句子,而是自己拆成关键词组合,这样对机器更加友好,也更有可能得到更好的答案。而现在,Google 搜索引擎对于长句子的理解更加深入,更懂用户想搜索什么,因此就能匹配更好的结果。

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图,是想问能否帮人取处方药。

对于循环智能而言,商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创Transformer-XL算法模型的完全“端到端”语音识别引擎部署,针对销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据,循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐,包括众安保险、玖富、VIPKID、新东方在线、 58 同城、猎聘等。

免责声明:“站长之家”的传媒资讯页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性,更不对您的投资构成建议。我们不鼓励任何形式的投资行为、购买使用行为。

  • 大家在看
  • 相关推荐
  • iOS 14 N多新功能曝光:自订语音合成、手写识别、独立健身APP等

    尽管 6 月的WWDC是否延期或者改变举办形式还存疑,但这并未影响iOS14 的开发进度。

  • 支持语音识别游戏指令!腾讯黑鲨游戏手机3全新JOYUI系统迎来全面升级

    近期手机圈的大事就要属 3 月 3 日即将发布的腾讯黑鲨游戏手机 3 了,除了在性能上的硬件升级外,通过黑鲨在细节上的“升而不同”口号,我们也能看出,新品不仅在散热、性能、操控及屏显等方面,在做明显升级的同时,还非常注重玩家体验,在细节处增设不少独家优化,例如升降按键+屏幕压感的多维操控提升,以及横握散热及背部磁吸的游戏手感提升,这也令许多玩家更加欣喜、期待。近日,黑鲨官方再次爆出新机将在软件上同样有大幅度

  • 福音来了!以色列开发新冠病毒语音检测法 识别感染者独特的“声音指纹”

    据外媒报道, 3 月 24 日,以色列国防部称正在开发一种通过语音检测新冠病毒的方法,或可识别感染者的声音。据悉,因新冠病毒影响呼吸系统,患者的声音和呼吸模式也会出现迹象,出现独特的“声音指纹”,或能帮助检测是否感染。

  • 格力申请人脸识别设备专利 可解决人脸识别失败问题

    近日,格力电器的运营主体珠海格力电器股份有限公司于 2019 年 10 月 10 日申请了名为“一种人脸识别的方法和设备”的专利。据悉,该专利公开了一种人脸识别的方法和设备,涉及人脸识别技术领域

  • 虹软推出最新人脸识别算法:戴上口罩也能精准识别

    在人工智能技术迅猛发展的当下,人脸识别应用已日趋成熟,但在此次疫情中却也面临了全新挑战——口罩下的人脸该如何完成识别?基于原有的人脸识别算法,佩戴口罩会大大影响人脸识别准确率,如果为了刷脸脱掉口罩,则又会增加感染风险。针对这一实际需求,为了更好的助力复工复产期间的疫情防控,虹软视觉开放平台推出了口罩相关的人脸识别相关算法,包含“口罩佩戴检测算法”和“戴口罩时的人脸识别算法”,全力支持合作伙伴和开发?

  • 语音输入的“人气王者”来了!百度输入法日均语音请求量超10亿次

    “今年春节不出门,王者峡谷人挤人。”,这个春节里,你也打游戏了吗?当疫情阻挡了人们出行的步伐,不少人都取消聚会,改为约上三五好友一起打排位升钻石。据MobTech大数据显示,《王者荣耀》 2020 春节期间日活均突破 5 千万,大年初一更到达了日活 5400 万。这个春节的手游行业着实“疯狂”,而游戏里的沟通需求也随之飙升。相信许多人都有过这样的经历:团战关键时刻要发起进攻,却因跟队友打字沟通太慢错失良机,这时候就该让?

  • 日均语音请求量突破10亿次,百度输入法“坐实”语音输入界“顶流”

    最近电视剧《安家》引起不少热议话题,剧中许多情节让网友们看着“干着急”。其中一幕便是外号叫“985”的房产中介直接发语音跟客户交流卖房,引起了客户的强烈不满。许多网友都发弹幕为他支招,提示他将语音转化为文字再发给客户。而这项“网友皆知”的语音输入功能,百度输入法已做到“炉火纯青”。近日,百度输入法公布,自 1 月 25 日春节假期以来,百度输入法日均语音请求量已破 10 亿次大关,再创行业历史新高。(网友发弹幕?

  • 百度大脑正式开放戴口罩人脸识别技术 戴上口罩也能精准识别人脸

    今天,百度AI官微宣布百度大脑正式开放戴口罩人脸识别技术,以后大家即使带着口罩也能精准识别人脸。疫情期间,百度将向服务于政府防控、公共交通、国家基础建设等非商业项目免费开放该技术,希望可以让在一线奋斗的工作人员更安全、更便利、更省心,也希望AI力量的加入,可以让他们多点休息的时间。

  • Breeno语音携手群星陪你一起战疫

    近日,Breeno语音的创意防疫内容,受到用户及行业合作伙伴的关注。在Breeno语音中,用户不仅能看到肖战、王凯、Angelababy、范丞丞等明星助阵的疫情防控小贴士,更能使用Breeno语音上线的“宅家战疫 小布陪你”防疫专题持续跟进疫情动态,并通过丰富的功能给宅家生活增添趣味。Breeno语音携手群星,为用户送上疫情防控小贴士疫情期间,Breeno语音携手肖战、王凯、Angelababy、范丞丞、陈赫、佟大为、李晨、海清、王子文、周笔畅、?

  • OPPO Watch新品发布,Breeno语音首次登陆IoT设备

    3 月 6 日,OPPO发布了旗下首款智能手表OPPO Watch。搭载eSIM独立通信功能并使用旗舰级双曲面柔性屏等配置信息,引起海内外用户的强烈关注,而在软件端灵动智能的Breeno语音,也同样引起用户热议。一句“嘿,Breeno”,即刻唤醒OPPO Watch上的Breeno语音,这让OPPO Watch的智能化更具有表现力,更意味着Breeno语音首次登陆IoT智能设备的成功。Breeno打造 13 项语音技能,让智能手表解放双手搭载Breeno语音的OPPO Watch,以客户端+S

  • 抖音内测“语音直播”功能 已在安卓端上线

    近日,抖音正在内测语音直播功能,主播将APP升级至最新版本即可开通该功能。其中,语音直播入口位于“开直播”功能区。该功能区底部共有视频直播、游戏直播、语音直播三种选项。“语音直播”功能,目前最多支持 8 个观众同时在线聊天。

  • 抖音+语音直播,持续细分的“孤独经济”尽头在哪里

    “御姐涵涵”是一位B站电台的主播,作为一名播音专业的学生,每天从晚上 22 点开始直播到凌晨 3 点。在B站有一万一千多位粉丝的她决定过段时间同时在抖音和B站进行直播。

  • 疫情当下,戴口罩是否可以通过人脸识别认证

    来势汹汹的新型冠状病毒肺炎仍在持续影响全球。口罩成了全民出门的必备,广泛应用于机场,车站,医院,写字楼,园区的人脸识别面临新的挑战。在人员密集的公共场所,人们担忧戴上口罩无法通过人脸验证,摘下口罩进行验证又面临感染风险。在全民戴口罩出行的情境下,门禁、电梯是否可以通过人脸识别认证通行?旺龙工作人员对旺龙所有人脸识别(包含云通道闸、云门禁、云对讲、云电梯等)设备进行算法升级,即使行人戴着口罩,人脸识别?

  • 谷歌翻译将面向安卓用户推出实时语音转录功能Transcribe

    谷歌翻译日期那发布了面向安卓用户的语音转录功能应用 Transcribe,该功能可以实时翻译和转录音频。

  • 抖音回应内测语音直播功能:疫情期间希望用户更好交流

    近日,针对“抖音内测语音直播功能”一事,抖音方面回应称,语音直播目前在测试阶段。疫情期间,希望通过直播功能的丰富和完善,普通用户能更好的交流,获得更优质的内容,丰富精神生活;中小企业能够更好的与自己的客户沟通,提高交易转化。

  • 抖音短视频内测语音直播,已在安卓端测试上线

    3月5日据“今日网红”消息,短视频平台抖音正在内测语音直播交友功能。公会主播将抖音升级到最新版本,即可开通该板块。该功能目前仅支持安卓端,iOS版本暂时未发布该功能。一张公会开启抖音语音直播的海报显示,“语音直播”正式开启时间为 3 月 2 日,并标注了“日结”、“高提成”、“内测名额有限”等关键词。

  • 腾讯黑鲨游戏手机 3 将支持「业内首家游戏语音操控」

    腾讯黑鲨游戏手机 3 支持为《王者荣耀》,《和平精英》等热门游戏设置语言指令,比如在游戏中喊出「手雷手雷」即可触发投掷物功能,隔空完成游戏操作。

  • HomeKit将获三项重要新功能:引入面部识别

    援引外媒9to5Mac报道,在即将到来的iOS14 和tvOS14 系统更新中HomeKit有望获得三项重要新功能。在今年秋季发布的版本更新中,HomeKit的照明、安防摄像头和Apple TV Audio都会获得重大改进。

  • 指静脉识别技术的源起、应用与发展深度解析

    导读:指纹识别、人脸识别、指静脉识别是当前最为常见的生物识别技术。随着万能指纹、人脸照片被盗、人脸信息隐私、指纹缺失等其他生物识别技术问题的出现,指静脉识别技术因具有优越的高安全性、高便捷性,正得到大众青睐并广泛应用。在2019年,指静脉识别技术在支付、安防、地铁、门锁、消费电子等领域均有创新性的应用,如日立制作所和东芝推出「刷手指」支付服务、广州地铁推出指静脉识别过闸机、格力推出指静脉智能锁、小米有

  • 指静脉识别技术为智能医疗耗材柜保驾护航!

    面对新型冠状病毒感染肺炎疫情蔓延的严峻形势,新技术的参与在防疫抗疫中体现的科技价值越来越重要,成为城市的“免疫力”。高安全、人性化、便捷化的产品和服务在赋能智慧城市上发挥出更大的价值。随着医院的规模及诊治范围不断扩大,在医用耗材的管理中,很多医院还在采用传统的手工记录管理方式来管理耗材,耗材种类繁多、名称混乱、容易造成冒领、记录缺失、登记错误、物品难以溯源追踪等问题,导致护士人员工作量大、工作流程

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议