百度输入法AI探索版亮相 SMLTA加持语音识别精度超行业水平15%

2019-01-16 23:11 稿源:TechWeb  0条评论

【TechWeb】1月16日,百度输入法AI探索版今日正式亮相,这是一款默认输入方式为全语音输入,并可以调动表情、肢体等进行全感官输入的全新输入产品。

这款AI输入法采用了百度语音技术突破性创新:流式截断的多层注意力模型——Streaming trancated multi-layer attention(SMLTA),在线语音识别精度相比行业最高水平又提升了15%,并完美支持方言输入、中英文混说输等多种语音输入方式。

百度中文输入法负责人蔡玉婷介绍,截至2018年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持120种语言,覆盖全球190个国家地区,并已与超过100个全球知名IP达成合作。

现场,百度高级副总裁王海峰表示,输入法是离用户最近的产品之一,也是AI落地的“桥头堡”,百度全方位的AI能力正在不断赋能输入法,让输入法更“聪明”。他认为,未来的输入法将应用于各种智能设备与用户的交互,连通包括智能家居、车联网等多种终端场景。

AI探索版特色功能

蔡玉婷介绍,相较2016年,百度输入法日均语音请求量增长了8倍,语音输入法的场景也从聊天和搜索拓展到游戏、娱乐、购物等众多场景。百度输入法AI探索版是百度AI落地应用的又一重要成果,全语音交互是它最大的特点之一。

尤其值得一提的是,借助SMLTA,百度AI输入法突破了业界普遍认为较难实现的中英文混说识别,在完全不影响中文语音输入准确率的情况下,能高精准的中英文混合语音识输入。

此外,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。现场分别演示了百度输入法AI探索版接收四川、西北、东北等6地方言的语音输入,识别准确率均表现不俗。

据介绍,百度输入法是目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。

此外,蔡玉婷介绍,目前百度输入法已经支持6地方言的语音输入识别,尚不支持粤语,未来将陆续更多地方方言。

除了语音输入,百度输入法AI探索版还推出了拍立活、秀场、凌空手写等新功能玩法。

SMLTA技术加持 在线语音识别精度再提高15%

当前语音领域主流的Attention模型(注意力模型)提出已有好几年。注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。直接实现了语音和文本一体化的端到端建模,从而公认的有更高的建模精度。

但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。

百度语音技术部负责人高亮向TechWeb等介绍,流式截断的多层注意力模型(SMLTA)是基于CTC的尖峰信息对语音流进行截断,然后再每一截断的语音小段上进行当前建模单元的注意力建模,把全局的Attention的整句识别变成了局部的Attention的流式识别,并且引入多层的Attention,实现特征层层递进的更精准的特征选择。

这使得语音识别的识别率超越传统的全局Attention建模,同时计算速度和传统CTC技术持平,实现全CPU流量的大规模线上服务。这是全世界范围内,第一次基于attention技术的在线语音识别服务的大规模上线。这项技术的突破促使百度输入法“在线语音”相对准确率领先业界15%。

同时,百度语音技术团队优化了输入法上嵌入式识别的deep peak2系统,大幅提升了离线语音识别准确率。据介绍,目前百度输入法“离线语音”输入准确率已高于行业平均水平35%。

高亮介绍,嵌入式识别、中英文混合识别、方言识别,这三个技术体现了百度语音的技术制高点。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多