探访微信模式识别团队:两盒烟 三个月 一诺千金

2013-09-26 11:05 稿源:用户投稿  0条评论

技术与产品,谁驱动谁?

上个月在日本 NTT Docomo 总部采访的时候,我们了解到 NTT Docomo 由于对 3G 技术做了非常深入的研究(它是全球第一家商用 WCDMA 3G 网络的运营商),忽略了配套产业的建设,反而制约了 3G 业务的发展。Docomo 提给中国运营商的建议就是要与终端厂商做好沟通,与产业协同发展。

相反的一个例子是,我们今年 5 月在上海采访来自 Kickstarter 的创业团队SmartWallit,他们很早就想利用蓝牙技术做防丢设备,但由于蓝牙 4.0 技术(更省电)一直没有大范围商用(2010 年 7 月公布技术规范),一直拖到 iPhone 去年 9 月真正支持蓝牙 4.0,及 GalaxyS3、Note 2 机型出现,他们才觉得时机到了。

这类技术与产品谁主导的矛盾经常存在。那么对于隶属于微信的一个科学基础研究团队来说,是技术驱动产品,还是产品驱动技术?

陈波的答案是:更多情况是技术驱动产品。“产品在定需求的时候,往往不知道一种技术能做到什么程度,需要通过足够的时间预研、探索才能知晓”,陈波说,“预研成熟后,产品的主导会比较多。比如技术本身有很多弱点,那么产品上就要想如何去扬长避短”。

据陈波介绍,腾讯做产品比较讲究敏捷开发,但他们搞基础研究并不完全倡导敏捷开发,要以技术的成熟为前提。“不过一旦技术差不多 OK 了,可以面向用户,接下来就走迭代路线。我们让研究跟着产品走,怎么做优化、怎么做评测、发展到什么程度才能上线,都跟着产品的节奏来”,陈波说,“差不多一半时间预研技术,一半时间跟着产品节奏走”。

我问陈波前期做技术预研会不会参考其他产品的现有技术。比如微信“摇一摇”搜歌和 QQ 音乐的“听音辨曲”跟海外 App 产品 Shazam 功能很相似。陈波说很多技术都有相关可参考的学术论文发表在国际期刊上,Shazam 有这样的论文,Google 也有论文。她的团队经常研究过去做到了什么阶段。“做基础研究,大量的文献阅读是必要的”,陈波说。

(微信模式识别中心总监陈波)

做研究与做产品有很多不同。最大的不同是,基础研究更讲究“谋定而后动”,要沉下心去想,临门一脚揣不出灵光来。在我所认识的产品团队中,“封闭开发”一般是指把团队拉到郊区,吃喝拉撒睡全在一起,不与外界接触,甚至与家人朋友也鲜有电话联系,几乎是与世隔绝的状态,这样才能保持极其高效的开发效率。陈波说他们的封闭开发不是这种封闭形式,“封闭开发是更像是一个口号,态度上要更认真,时间上要更紧迫”,她说,“基础研究不是逼出来的,它要有一个认真思考的环境,要沉下心去想。如果催促着要上线,它是做不出东西来的”。

目前陈波的团队进行过两次封闭开发,一次是“两盒烟,三个月”承诺之后,一次是为了保证微信 5.0 的语音功能上线。每次“封闭开发”周期为两个月,封闭开发期间,下班会比较比较晚。“我们会把节奏盯得更紧,快速地达到目标,按产品的节奏去做研究。”

“基础研究没有‘失败’,只有时机”

模式识别团队从 2012 年 9 月加入微信团队,至今一共开发了五个大功能:通讯录语音搜索(v4.3),语音提醒(v4.5),摇一摇搜歌(v4.5),增强版“扫一扫”(v5.0)和“语音输入”功能(v5.0)。我问陈波有没有失败的项目,她的回答很有意思:

很多东西我们不认为是失败。有些技术目前没有发布,不代表将来不需要;可能只是这个阶段没有,在未来一定会有。比如我们做的很多增强现实(AR)的东西,现在无线带宽不允许,因而没有发布;但 2、3 年后网络不再是问题了,技术就能够落地。我们不会 care“你做的东西没有用”或“短期没有用处”,我们不以这个作为技术衡量的标准。

她以 4G 网络的发展举例。“增强现实和移动视觉搜索技术,现在费了很大精力去做流量限制(比如“扫一扫”扫描封面 /CD/ 海报会有前端后端做各种判断以减少流量,最终控制在几 KB)”,陈波说,“但是以后在 4G 时代,流量更宽裕了,可以做很多事情,比如展现更酷炫的效果,把增强现实带到前端来”。本月初我的同事何宗丞在美国参加高通 Uplinq 大会的时候就看到了高通这方面的技术研究成果。不过据爱范儿了解,国内 4G 牌照要到 11 月才会发放,至少一年后 4G 才能迎来蓬勃发展,意味着受网络条件的制约,各类创新技术要在国内掀起热潮仍有待时日。

回到微信的话题,“现阶段没有”的一个功能是“名片识别”。在 8 月 5 日微信 5.0 发布前,我们曾听说微信可能发布名片识别功能,对名片全能王这类产品将形成冲击;但这个版本发布后,名片识别功能不见踪影,他们又松了一口气。据陈波告诉爱范儿,名片识别功能确实将会发布,但目前还在提高准确率,“有了良好的用户体验后才会考虑发布”。

除了名片识别外,据说 4.5 版本的“摇一摇”搜歌发布前陈波也经历煎熬。“当时该功能在 4.5 版本中是一个不确定发布的功能,但大家积极性很高,经常周末过来加班,当时甚至想干脆不发了。不过最终还是做出来了,而且做得很不错”,陈波说加入微信后,感触最深的是微信团队的执行力,“微信团队的最大优势是超强的执行力,大家都带着梦想做事。比如‘打飞机’游戏就是一个人两个星期开发出来的,人脸识别也是 1 个人做出来的”。

我让陈波用三个词来形容自己的团队,她使用的是“精益求精”、“兴趣爱好”、“踏实”。并作出解释:

精益求精:对于基础技术研究来说,精益求精很重要。从测试级、训练级到评测,准确率能做到 99% 一定不做 98%。这从产品上可能没什么概念,但从技术上来讲,它意味着让用户失败了很多次。

兴趣爱好:很多创新是由兴趣驱动的,对这一行不热爱、不喜欢,是创造不出好东西来的。比如我们在招人过程中,不会为了扩张而扩张,而是每个人都要有他的价值,是否热爱人工智能技术。

踏实:搞基础研究,一个小的方向,由 1、2 个人做,从头到尾做很多事情,包括 demo、实验、效果总结,需要踏实的心态去做。我们做研究,做到了 90%,如何把剩下的 10% 做好,就要耐得住寂寞,要有好的态度,持续的追求。

目前陈波的团队除了研究新功能外,日程表上排在前面的还有各种优化工作,包括扫一扫中封面、条码的识别率,语音识别的精度,本身库的搭建等等。她说团队也在考虑如何做开放平台,把他们的自研技术开放出来,供大家使用。“更多人来使用,才能更好了解用户需求,才能更容易看清未来趋势”。

模式识别技术下一步怎么走?

出乎意料地,陈波说团队面临的最大困难竟是”用户对人工智能(模式识别)的期待“。

“很多功能都很好,用户会问为什么不能实现”,陈波说到,“我们做的事情是模仿人的大脑,但人脑神经网络非常复杂,目前的人工智能远不能匹敌,用户对它的期望很高,需要做引导,让用户理解”。卢鲤举语音转文字(5.0 的“语音输入”)的例子,“这相当于一个初中生脑袋能干的事情,现在要让机器去完成,是比较有难度的”。

陈波认为虽然短期内麦克风、摄像头和其他传感器可能没有大的爆发点,但长期来看,它们一定会非常重要。“摄像头、麦克风的应用仅仅刚开始,看起来很火,但与大脑相比,差得好远”,陈波充满信心,“比如穿戴设备,由于没有很好的传感器,还没有被引爆。但是科技潮流的发展方向是不可逆的,它一定会在某个时间点爆发”。

拿眼下的麦克风和摄像头这类“入口”来说,在移动互联网之前,它们是安防领域的标配,到了移动互联网就成为移动设备的标配。“标配是干吗的?还不是让人的生活更方便嘛。标配就有可能成为入口。”不过陈波认为语音识别或图像识别领域都还处于发展初期,无法成为替代性的东西;她说将来也不可能完全替代现有交互方式,只是所占比例会越来越多,比如 Google 就已有超过 10% 的搜索就来自语音搜索。

模式识别中心图像组组长刘海龙举了一个例子,拿图像识别领域的视觉搜索来说,除了完善现有的 5 个“扫一扫”功能的库容量外,将来也可以扫描三维刚性物体,或由商家自定义用户想找到的东西——类似于 Google Glass。这是微信的重要产品理念:所见即所得。在刘海龙看来,摄像头应该是视觉的延伸,“它就是我们的一双眼睛”。

(微信模式识别中心图像组负责人刘海龙)

我问陈波微信加入各种功能,包括模式识别技术领域的功能,会不会变得越来越臃肿?她说微信的基本格局一直没有变,只是在各种入口之下,承载了更多东西。“不是臃肿,而是添加了更多创新的东西,很多用户喜欢。”她举的例子是摇一摇搜歌,“一开始的时候我们还没有信心,这个功能也做得很隐蔽,但是后来增长曲线很健康,认可度和好评度都很高”。陈波说这个功能每天的服务次数在千万次级别,大约有 10% 的人搜到歌曲后会去分享。这是一个不错的分享比例。

至于人工智能可能的发展方向,比如 20 年后会是什么样子?陈波笑称把想象空间留给好莱坞的科幻电影。“钢铁侠、碟中碟 4 中有大量语音、图像识别技术,对未来产品形态作了某种诠释”,陈波会带着团队集体去看这类科幻电影,“期待有一天真的达到那个效果”。

“小龙看得很远”

外界能看到,张小龙顶着“产品大拿”的光环,产品能力、交互设计能力很强。

“外界所看不到的,是张小龙对未来看得非常清楚”,陈波说,“为什么他会重视我们这块?哪些东西要做储备,哪些东西未来很重要,他会给我们很多建议。他不仅仅是告诉别人怎么做交互,他会看得更远,他看得非常远。我们每次跟他交流都是一个学习的过程”。张小龙会在陈波的团队涉及到某项技术研究方向的时候给予优先级建议。不过她并没有指具体哪类技术。

模式识别团队每月会去广州和张小龙交流,有时驻扎在那边做 2、3 个星期联调。除了交流日常工作外,张小龙也会跟他们谈未来的趋势。比如穿戴式设备、身体健康相关、脉搏分析、人脸识别、Google Glass、物体检索方面。不过在被问到微信将来是不是与穿戴式设备联系越来越紧密时,陈波马上予以否定,“更多是小龙个人的爱好”。

爱范儿从 HTC 方面人士了解,张小龙确实对硬件领域确实非常感兴趣,双方时有探讨未来的硬件形态。而在本月初三星发布 Galaxy Gear 智能手表后,张小龙在朋友圈暗示微信可能入驻智能手表平台。微信内部还有一个前沿的硬件实验室,现已着手从 NFC 贴条、汽车中控台等不同方向研究微信在物联网平台的应用。此前,友宝自动售货机及印美图这些基于微信平台的硬件交互创新也得到关注和支持。

我们稍后问到张小龙和微信团队具体关注哪些趋势。陈波表示张小龙更关注微信带来的交互变革及所依托的移动互联网对行业产生的影响。“随着硬件传感器丰富以后,可以带来人与机器交互的革命性改变。”她讲到两个方面,一是硬件与软件结合,两者结合带来的变革会更透彻;二是随着语音、光学等传感器的发展,机器人研究会取得进步。“机器人长时间发展不起来,因为每个传感器都很贵。将来科学家、极客都去研究,传感器本身就会发展很快,带动人工智能技术的发展”,陈波说。

她拿无人驾驶汽车举例,“无人汽车拥有大量传感器,很多人都崇尚这个东西,将来到了一定阶段,无人驾驶汽车会因传感器的普及而得到更广泛使用”。不过她否定微信会涉足传感器硬件的研究——iPhone 5s 搭载指纹识别功能,陈波说团队可能会基于 iPhone 的技术做研究,但不会自己去做指纹识别硬件——而是要保持团队接地气的气质,跟着产品战略走。“我们用小团队(约 1/3 人力)去研究很牛的产品,这是我们的理想”,陈波说到。

这也是张小龙和微信团队的理想。一年前,我们曾探讨微信之于物联网的意义:

也许,在所有人都在探索的移动互联网领域,微信还有可能重新定义被说烂的物联网、LBS、O2O。它所呈现的互联形态,不是复制超链接(hyperlink),而是去创造连接真实关系,连接所有物件,成为人机交互界面的微链(weilink)。

张小龙曾响应这个观点,并在今年 7 月腾讯合作伙伴大会微信论坛上提出“解决人与企业、人与设备的通信问题”:

最终,物联网会到来,微信不光连接人,还可以连接能上网的机器,每个机器都有个二维码作为设备 ID,在微信里可以和设备对话来控制设备。

可以预见,随着基础研究和平台相结合,特别是微信这种大型平台强化人与物的智能连接,会带来更多变革的可能。与传统互联网所不同的是,移动互联网因为具备更丰富的连接性,基础技术得以从各方面渗透进来改变这个行业。这甚至是一种自下而上翻天覆地的变革,目标只有一个——更智能的人类生活。

如今,微信已起跑,Facebook 已起跑,福特已起跑, 苹果已起跑,百度也以“深度学习”起跑,Google 则跑得比较远……这条跑道,也许没有终点,但无疑会有越来越多身影。

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户朋友,发现稿件存在不实报道,欢迎读者反馈、纠正、举报问题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及可能存在的风险,任何后果均由读者自行承担。

有好的文章希望站长之家帮助分享推广,猛戳这里我要投稿

相关文章

相关热点

查看更多