AI换脸背后的技术攻防战

2019-09-02 17:27 稿源:深响公众号  0条评论

人脸识别

声明:本文来自于微信公众号深响(ID:deep-echo),作者: 丁直仁 赵宇,授权站长之家转载发布。

 核 心 要 点 

▪  ZAO应用的技术难度并不大,没有能力进阶的提升。

▪  合成视频触达了许多人的心理底线:当视频也可以被伪造,还有什么可以甄别真实?

▪  为了提高人脸识别的安全性,研究者们已经做出了诸多尝试和努力。

▪  除了人脸识别之外,还有多种生物识别技术可供进行个人身份鉴定。

经过一个周末的集中爆发,换脸软件ZAO的热度终于有所降温。它应用的技术并不新鲜,却让人脸合成视频第一次离普通用户这么近。

广被诟病的用户协议、合成视频存在的安全问题使得ZAO深陷舆论漩涡——从爆红到质疑缠身,只用了不到 24 小时。

但是,对ZAO的担忧与抵制并不能解决普通人隐私、安全存在风险的问题。从人脸合成技术诞生的那一天开始,人们就没有停止过对技术被人利用去作恶的忧虑。

人脸合成只是当下备受追捧的人工智能领域的一个分支,技术在为人类带来诸多新奇体验、便利的同时,也给个体带来对于自身诸多权益被侵犯的担忧。

当人类制造的技术越来越强大,甚至无所不能,人类本身的领地和独特性如何维护便成为值得思考的问题。如今,人工智能的发展渐成加速之势,这个情况甚至超出了不少人最乐观的估计,潘多拉的盒子已被打开。

因此,对ZAO的担忧,折射出的是一个潜藏于每个人内心的最基础的疑问:如果人工智能越来越无所不能,人类该如何自处?在新一轮的产业变革中,人类的隐私和其他权益究竟如何保护?

如何让技术被正确的使用,这是一个始终没有标准答案的问题,却又是解答以上问题的关键。

「被引爆的隐私担忧」

曾经刷屏的应用软件不止ZAO一款

在朋友圈刷屏,ZAO有许多前辈:脸萌、足记、天天P图……与ZAO一样,这些曾经刷屏的应用大多与图像相关,许多也需要用户上传个人照片,但是从未引起如此规模的争议和质疑。

能够合成视频是ZAO引爆公众讨论的关键:在此之前,图像APP的玩法都是基于静态的照片,ZAO则是第一次将视频换脸带到了每一个普通用户身边。

在一位从事计算机视觉研究的业界人士看来,ZAO应用的技术难度并不大:“如果说计算机视觉技术零分是最容易,十分是最难的话,原来你给我一张人脸图像,我能生成另一张姿势的图像,可能那个难度是三分、四分,而合成视频就是要生成一系列图片,不再只是一张,难度也就五分、六分,实际上并没有进阶的突破。”

事实上,在计算机视觉领域,生成一张图片的技术早已有之:把A的脸抠出来贴在B的脸上,Photoshop也可以完成。只是在深度学习的帮助下,程序可以快速、大量的P图。而视频人脸合成,实际上就是先生成一个视频序列的所有帧,之后加入检测或视频序列技术,进而生成人脸合成视频。

合成视频,这触达了许多人的心理底线:当视频也可以被伪造,还有什么可以甄别真实?

无论是今年 6 月被篡改的马克•扎克伯格的视频,还是被嫁接了美国女星面孔的色情视频,都足够引发大众对于视频真实、安全性的担忧。比如犯罪分子伪装子女声音向父母勒索的案例已经发生,在人脸合成的帮助下,视频验真也已经无法确定事实的真相,正如有些网友提醒的:“有手机号,有面部图像,通过技术合成,犯罪分子可以替你和家人通话。”

大部分人并不会遇到上述极端情况,但人脸识别的广泛应用使得人脸合成有了更多可以想象的发挥空间。当人脸合成被装进手机应用中,成为每一个人都触手可及的技术时,类似的担忧无疑会被放大,在安防、支付、考勤、刑侦等领域,愈加真实、无破绽的人脸合成技术,的确会带来不少安全隐患。

好在,围绕人脸识别的攻防战早已拉开帷幕,多次交手后,技术升级后的人脸识别并不那么容易被攻破。

「技术攻防战」

人脸合成只是计算机视觉研究的一个细分方向,作为一门致力于让机器看懂物体的科学,计算机视觉研究诞生已久。 1966 年,人工智能学家Minsky给学生布置了一个作业:编写一个程序让计算机告诉我们它通过摄像头看到了什么,这被认为是计算机视觉最早的任务描述。而计算机视觉之所以在今天能诞生如此多新奇有趣的应用,与深度学习的发展密不可分。

2006 年,深度学习泰斗Geofrey Hinton在《Science》发表了论文《A fast learning algorithm for deep belief nets》,推动了持续至今的人工智能浪潮。

深度学习在国内业界的普及则与百度密切相关。

2013 年 1 月,百度正式对外宣布成立深度学习研究院(IDL),李彦宏亲自出任院长,中国“千人计划”国家特聘专家、现地平线创始人余凯任副院长。 2014 年,IDL的Deep Speech项目将嘈杂环境下的语音识别准确率提高至81%——彼时同样环境下Bing、Google以及Wit.AI等的最高识别率也只有65%。这是深度学习在国内工业界应用的典范,引发了人们对深度学习的重视。

得益于此,人工智能相关应用在过去几年迅猛增长。其中,人脸识别是应用范围比较广的技术之一。如今,在金融、安防、考勤等领域,人脸识别已被大量应用。比如,当用户向互联网金融公司借贷时,平台首先需要做的是“验证你是你”,由于与钱直接相关,拦截伪造的人脸攻击就变得至为重要。

ZAO应用的人脸合成技术引发人们忧虑的一个场景便是:合成人脸是否会引发安全问题?这个问题已经引发研究者的重视,为了提高人脸识别的安全性,他们做了诸多尝试。

超会蹭热点的支付宝在知乎表示不用担心刷脸被冒充

2018 年 7 月,旷视科技产品总监彭建宏曾在一节网络公开课中表示:在人脸识别领域,目前比较流行的攻击方法主要包括:图片攻击(使用合法用户的纸质打印照片、彩色打印照片、手机里保存的照片等欺骗,属于非活体攻击)、视频攻击(提前录制的视频回放,包含眨眼、转头、张嘴等动作指令欺骗,属于活体攻击)、立体面具攻击(利用事先伪造的面具欺骗,属于非活体攻击)等几种方法。

而研究者们最为重视的是可以应对活体攻击的检测方案,包括动作活体检测、视频活体检测、炫彩活体检测、双角度活体检测等几种类型。

旷视的人脸识别方案

●  动作活体检测:要求用户根据UI提示做点头、摇头等随机动作,每次的随机动作都是从计算机 Servers 端发出的,计算机通过人脸质量检测、人脸关键点的感测和跟踪,以及脸部的 3D 姿态等技术细节提高人脸识别的精准度。

●  视频活体检测:主要针对移动 H5 的场景,要求用户根据 UI 提供的内容读一个四位数字,计算机通过云识别、语音同步检测等方法判断被检测的人脸是否真实。

●  炫彩活体检测:根据反射光三维成像的原理,杜绝了用 3D 软件合成的视频、屏幕翻拍等的攻击。在强光环境下,炫彩活体的检测效果不太好,因此可能需要用户最后做出一个简单的点头动作,以提高活体攻击的门槛。

●  双角度活体检测:要求用户拍一张正脸的自拍照与侧面自拍照,这种检测方式相当于用户拍摄一个1- 2 秒钟的视频,计算机通过 3D 模型重建的方式来判断视频中是否为真人。

●  静默活体检测:不需要用户做任何动作,自然面对摄像头3、 4 秒钟即可。由于真实人脸并不是绝对静止的,而是存在微表情,如眼皮眼球的律动、眨眼、嘴唇及周边面颊的伸缩等,计算机则可通过此类特征反欺骗。

各个公司运用的活体检测方法各不相同,最常用的是摩尔纹(在数码照相机或者扫描仪等设备上,感光元件出现的高频干扰的条纹,是一种会使图片出现彩色的高频率不规则的条纹)。不过对于伪造的人脸面具,摩尔纹也无法识别。这个时候,只有通过给机器输入大量人脸面具的图片,让机器找出面具特征,再结合摩尔纹才能有效拦截。

旷视科技的彭建宏也提到,基于云端大量人脸数据训练出的 FMP 深度神经网络,能够根据线上数据实时返回和调整,从而不断提高识别准确率,实现有效识别翻拍及面具攻击。

通过以上几种检测方案,计算机就能够判别检测的人脸是真实的人脸,还是伪造的人脸攻击。

「除了人脸,守住真实防线的武器还有哪些?

证明你是你,脸并不是唯一的标记物。除了人脸识别之外,还有多种生物识别技术可应用于个人身份鉴定领域。

生物识别一般是通过与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性和行为特征来进行个人身份的鉴定。由于具有不会丢失、不易遗忘、防伪性能好等特点,生物识别被获得了研究者的重视,其中指纹识别、虹膜识别等识别方式已经有了较为广泛的应用。

●  指纹识别:将识别对象的指纹分类比对从而进行判别。目前国内早已形成了完整的指纹识别产业链,比如从事指纹芯片设计的上市企业汇顶科技,此外还有思立微、费恩格尔、迈瑞微等国产指纹识别芯片厂商。

●  虹膜识别:由于虹膜自胎儿发育阶段形成后直至死亡终生不变,具有极强的稳定性,决定了身份识别的唯一性,因此可以基于眼睛中的虹膜识别身份。目前,虹膜识别凭借其超高的精确性和使用的便捷性,已经广泛应用于金融、医疗、安检、安防、特种行业考勤与门禁、工业控制等领域。国内的代表厂商有中科虹霸、虹星科技、聚虹光电、武汉虹识、释码大华等。

●  步态识别:旨在通过人们走路的姿态进行身份识别。由于它不需要人的行为配合,很难伪装,所以特别适合于远距离的身份识别。步态识别的采集装置简单、经济,甚至只需要一个监控摄像头。当前国内步态识别领域的企业中,名气最大的是银河水滴。

●  声纹识别:声纹识别就是把声信号转换成电信号,再用计算机识别,包括说话人辨认(如缩小刑侦范围)和说话人确认(如银行交易)两种类型。声纹识别提取方便、成本低廉,适合远程操作,但同时也存在易受环境噪音影响、部分场景下声纹特征不易提取等缺点。所以,声纹识别目前主要还是被用于一些对于身份安全性要求并不太高的场景当中,比如音箱等智能硬件。目前国内的科大讯飞、思必驰、云之声等企业都推出了相应的声纹识别技术。

我们日常使用的微信,也应用了声纹识别技术

●  掌静脉识别:首先通过静脉识别仪获取手指、手掌、手背静脉的图像,然后将捕获的掌静脉分布图存贮在计算机系统中供后续识别使用。掌静脉识别简便易用、识别快速,准确度还很高。然而,由于掌静脉识别的产品有难以小型化、制造成本高、对采集设备有特殊要求等缺点,目前应用并不广泛。当下国内知名的企业有富士通、通元微智能科技和智脉科技等几家。

上面的每一种识别方式都曾以不同面目在电影中炫酷出镜过,比如《谍中谍5》中,“步态识别”成为阿汤哥一行人获取情报的最大障碍。

尽管以上提到的生物识别技术各有门槛,但它们并非不可破解,在AI技术加速发展的当下,一些识别方式如同人脸识别一样,正在遭遇更大的挑战。

根据量子位的报道,斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话。并且,改动关键词后人物口型还能对得奇准无比,丝毫看不出篡改的痕迹——AI也能造假声音了。

技术的进步让我们拥有了更多盔甲,但同样也暴露了我们更多软肋。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多

关闭