希尔贝壳:如何用技术创新颠覆传统数据标注产业的“野蛮生长”

2019-04-11 11:00 稿源:猎云网公众号  0条评论

卜辉告诉猎云网,目前申请AISHEll- 2 数据库的高校数量全球已超过 300 所,企业近 50 家。其中对高校免费开放,企业则收取一定数额的费用。

清华大学语音与语言技术中心副主任王东认为,“希尔贝壳的开源数据具有很高的学术价值,我们做学术这么久一直在数据上有瓶颈。AISHELL-1,AISHELL- 2 会像ImageNet在图像领域的影响一样,推动语音行业的发展”。

在卜辉看来,庞大的高校群体通过接触到希尔贝壳的语音数据库进入语音产业,这个意义非同一般,“很多高校不具备商业行为所以语音数据量十分缺乏,而这个量级的数据库的开源能帮助学生进行更扎实的学习、研究,为语音行业的发展输送了资源和人才”。

此外,对企业端来说,这套数据库的开源也为那些对数据有迫切需求、却无法进行单独定制数据的中小型公司提供了搭建自己业务能力的机会。

以技术创新突围传统数据标注市场

卜辉坦言,整个 18 年,团队都在不断“证明”自己在AI语音数据方面的能力,并在进行语音能力和语音数据处理、融合方面的平台研发。

而在 18 年底回顾行业时,他发现,技术成本的降价速度惊人,“比如一套通用AI系统相比一年前,价格基本折了三分之一,但是成就技术的数据并没有贬值。相反,数据处理、采集和加工的人力成本越来越高”。

很长一段时间里,数据标注拼的都是人工劳力。大部分业务需求的不稳定,迫使初创企业很少能完全自建具有规模的数据标注团队,而是以“众包”方式将项目外包给一些小的数据外包团队。

随着业务量的增大,行业所需的数据标注量也在急剧增长。为了不断压低成本,传统的“众包”模式在数据标注质量、效率和安全性上都无法得到有效保障。一层层“众包”的利润折损之下,是大量数据标注团队的“野蛮生长”。

如何使人工成本降低的情况下提升数据质量,卜辉认为,应当基于一个强大的智能化工作平台,通过完善技术和管理手段来提高数据质量的管控和质检,将人从重复的标注工作中解放出来,做到智能化工作和管理,提高整个标注效率。

希尔贝壳研发了四套智能标注落地方案,即语音数据质量评测系统、语音自动转写系统、场景数据集测试系统和音频检索系统、智能化数据标注众包大数据分析系统。实现从人工到技术,再让技术助理人工完成高效的标注训练。

除了具备解决数据标注”最后人工成本一公里”的技术创新能力,希尔贝壳还拥有自建数据库的能力,并将根据不同应用场景定制更优质的数据库,以提高深度学习的精度,精准解决产品需求。

“好的数据对AI应用很重要,数据有很多类型,希尔贝壳是站在技术落地的角度对数据进行分析,所以数据产品也很精准”,作为希尔贝壳的客户之一,人工智能解决方案提供商roobo CTO雷宇认为,“在数据处理工艺上,希尔贝壳应用了很多前沿技术,这是区别于传统数据公司最大的优势之一”。

卜辉一直是“人工智能民主化”的倡导者,他表示,团队接下来的方向,就是通过技术创新改变传统数据标注产业的生存环境,通过积累的人工智能技术和创新赋能给更多行业从业者,在人工智能大数据行业的生产模式上实现新的突破。

 

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多