智能音箱的战场,却成了这家公司的红利收割场

2019-11-06 11:39 稿源:锌财经公众号  0条评论

天猫精灵、智能音箱 (1)

声明:本文来自于微信公众号 锌财经(ID:xincaijing),作者:许梦,授权站长之家转载发布。

2015 年京东和科大讯飞合资成立的灵隆科技,推出第一台中文智能音箱。到现在国内智能音箱大战已然战旗烈烈。

今年天猫精灵、小米AI音箱相继宣布销量突破 1000 万台大关,百度也传出 2019 年智能音箱的KPI是 1000 万台。

从占据市场前三的小米小爱、百度小度、天猫精灵魔盒,到华为智能音箱、联想音箱、腾讯王者荣耀智能机器人……在这场音箱鏖战背后,却有一家共同的远场语音技术服务商——声智科技。

他们主要为B端用户提供SoundAI Azero智能操作系统和服务,以及深度结合应用场景的人工智能技术和产品解决方案,并拥有声学传感阵列,远场声学处理,远场语音唤醒,远场语音识别,远场双工通话,远场声纹识别等自主核心技术。

我们平常使用的智能音箱的智能交互服务大多是声智提供技术支持。可以说,声智科技是伴随着智能音箱赛道兴起应运而生的。

时间倒回三年前,市场并没有多少人看好语音交互。“那时候大家觉得人脸识别会更好,因为它涉及到安防,政府会有一定的需求。”声智科技创始人、董事长兼CEO陈孝良说。

图像光靠人脸识别就可以重金卖出,相比之下,语音从收集声音、降低环境干扰到识别口音和方言、转化文字等,技术链条过长,而且交互落地场景匮乏,市场前景不明。

但陈孝良认为,声音可以解决人跟物的连接问题,这是个更大的市场。从中科院声学研究所出来,从语音识别领域切入,他创办了声智科技。

语音识别技术,就是为了让机器人听明白人在说什么。语音识别是让机器通过识别和理解,把语音信号转变为相应的文本或命令。通俗来说就是给机器装上耳朵,让机器听懂人类语言,实现人与机器交流。

远场语音识别是通过麦克风阵列前端处理算法,即使在三至五米的距离说话也可准确识别。而近场语音识别,主要指手持设备近距离语音,比如输入法中的语音输入。

彼时,行业普遍的技术思路是从近场过渡到远场,在近场环境中加一些模拟噪声、模拟环境等。

从中科院副教授辞职创业,陈孝良对于方向想得明白。他认为,远场语音交互是未来人机交互的趋势之一,声智直接就是做远场语音交互。和不少AI公司一样,声智刚开始也是从安防领域切入。

当时, 360 也正在寻找一个能解决摄像头远场语音问题的技术服务商。很多摄像头虽然能录像,但是摄像头距离一拉远,收音含混不清。当 360 找到他们,双方一拍即合。声智抓住这一市场痛点进行针对性研发。成立 3 个月后,声智提供技术支持的首款语音安防产品——奇虎 360 小水滴智能摄像机正式上线。

“摄像头销量很好。”陈孝良告诉锌财经。第一个订单不仅吸引来了 360 这个重要客户,后来 360 也成为第一波押注声智的股东。 2016 年 5 月,声智拿到了峰瑞资本、奇虎360、润浙资本的上千万天使轮融资。

如果说和 360 的合作是试水成功,那么成为小米音箱远场语音交互方案的唯一供应商,让声智一炮打响。

2016 年 8 月,小米联创王川来声智考察技术。彼时,陈孝良团队已经做出了智能音箱模型。

在硬件上,声智科技凭借声学信号方面的技术积累,研发出单麦、双麦、 4 麦克风阵列、 6 麦克风阵列和 8 麦克风阵列等。其中麦克风阵列集成了全方位唤醒、声源检测、定向拾音、噪音拟制、混响消除、回声抵消、声纹识别等多项技术。

据陈孝良介绍,小米AI音箱包含 6 麦环形阵列技术和远场唤醒技术,具有Dual-wake、Free-cut、One-shot等独有的定制功能。而在小爱音箱mini上,声智提供了 4 麦远场语音交互技术,解决了小型智能音箱体积较小(麦克风阵列与大音量喇叭相距很近)、低成本喇叭失真较大的技术困难。

智能音箱为声智在人工智能硬件领域撕开了一个口子。随后,百度、阿里、联想、华为等客户纷至沓来。

为什么选择一个成立不到两年的初创公司作为技术提供商?陈孝良认为,靠的是技术的黏性。语音交互技术不断迭代,只有跑在前头了,才有后边客户的积累、数据积累以及市场规模的积累。

在语音交互的领域,除了单点实验的突破外,最重要的是规模化验证。谁最先实现规模化,谁就会占领先机。

声智是通过使用麦克风阵列及相关算法,对目标说话人的声音进行远场增强并匹配远场语音识别。在技术落地之初,很多厂商设备的芯片、传感器与其麦克风阵列并不兼容。

声智的解决方案是最大限度屏蔽芯片的差异化,通过算法处理芯片、传感器、麦克风阵列不一致性的问题,以此实现产品的规模化。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多

关闭