全感官输入2.0:百度输入法说这是个没信号也能用语音输入的时代

2019-01-17 11:38 稿源:用户投稿  0条评论

你是不是也经常因为进入电梯没网,导致刚刚用语音输入到一半的工作安排被迫搁置?或者灵感来了急忙打开手机,洋洋洒洒说了一大段却因为没有网一个字都没存下来?当我们在享受“语音输入”带来的便捷时,也常常受制于网络环境而失去了些许便利性。然而 2019 年百度输入法“AI·新输入 全感官输入2.0”发布会上,一段“离线语音能力的现场演示”却令人眼前一亮。

离线语音能力介绍 

会上,百度中文输入法负责人蔡玉婷介绍指出:“从 2016 年至今的爆发增长期,百度输入法日均请求量增长了 8 倍。预计未来 2 年,语音输入仍会保持高速增长态势,日均请求量能在现有基础上再增长 2 至 3 倍,达到巅峰。”此外,她还特别指出,“语音用户规模和使用场景不断扩大,让我们更有信心推出一款全语音交互的输入法。”

而语音识别准确率,则是影响产品体验的核心因素。此次发布会上,百度输入法的“离线语音能力”就是关注到用户在诸如坐地铁、乘电梯、经过隧道或者在人流密集的环境中,面对无网络、网络信号差所导致的“语音输入中断”而推出的功能。

百度语音技术部负责人高亮介绍了该功能,他指出百度语音技术团队通过不懈努力,“优化了输入法上嵌入式识别的Deep Peak2 模型”后,大幅提升了“离线语音识别准确率”。同时,他还在大会现场进行了“离线语音能力”的测试。他用 3 台相同配置的手机,分别安装了百度输入法及其他两个输入法产品。在统一关闭网络连接后,用同样的语句对 3 款输入法,进行“离线语音识别能力”测试。从测试效果来看,目前只有百度输入法可以做到在没有网络的情况下进行精准的语音识别,其他两款输入法均出现一些错字或者遗漏现象。

输入法离线语音能力评测 

据了解,“深度尖峰技术Deep Peak 2模型”全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该技术将高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体看作一个基本建模单元。与以往使用的上下文相关建模方式相比,Deep Peak 2模型能够充分发挥神经网络模型的参数优势,对多种说话方式的稳定性更强、准确度更高;同时能够带来更快的解码速度,提升语音识别的整体效率。此次优化了输入法上嵌入式识别的Deep Peak2 系统,不仅实现了离线语音输入,并且使得百度输入法“离线语音“输入准确率高于行业平均水平35%。

人工智能辅助人类工作的的第一步,是要在不同环境中听得懂“人话”。“离线语音”目前已在“百度输入法 AI探索版””和“百度输入法8. 5 版”中同步上线。当AI成功将输入法这一传统工具转型成为全新的“人机交互模式”时,每一个普通用户都能感受到AI带来的巨大能量,都将体验到前所未有的全感官输入。

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户朋友,发现稿件存在不实报道,欢迎读者反馈、纠正、举报问题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及可能存在的风险,任何后果均由读者自行承担。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多