如果你在百度搜索某关键字,比如考研成绩后,你就会在挂有百度联盟广告代码的网站上,看到百度推荐的与考研有关的广告信息。类似的,如果你在淘宝搜索了某个产品,在挂有淘宝联盟广告代码的网站上, 你会看到淘宝推送给你的“精准营销广告”。

这是目前网站普遍采用的跨站跟踪和Cookie跟踪等手段收集用户上网行为数据,并通过分析用户上网习惯来投放精准广告的典型案例。在大数据时代,只要上网,你就会成为大数据的一部分。

央视315晚会让Cookie有风险?

互联网的本质之一就是让信息更加快速的流动。

这一本质是双向性的,即当你随时随地借助互联网获取信息的时候,你也在无时不刻地“出卖”着自己——通过对你上网习惯、兴趣与行为的分析和挖掘,互联网可能比你自己更懂你。

但不要“惊诧”,这不一定就是坏事,因为它可以针对你(这类人)的习惯与兴趣,向你推荐更多你所需要的信息、服务,以及你最能接受的匹配广告。

毋庸置疑,在互联网提供免费服务的背景趋势下,这是用户可以接受而且也需要接受的良性基因。不过一旦基因发生突变,当有网站开始“染指”个人识别信息 PII(personally identifiable information)和个人隐私数据的时候,那就真的不仅仅是“一颗老鼠屎坏了一锅肉”那么简单了。

但央视315晚会对一票互联网企业毫不留情的“曝光”,让Cookie和“大概8点20分发”迅速成为了全民讨论的热点。

如果说,人们对“大概8点20分发”的话题还带有半分娱乐心态的话,那么央视晚会上所“曝光”的Cookie泄露用户隐私的内容,则让人不得不慎重起来,尤其是不少普通网民都会产生一个疑虑,那就是Cookise到底泄露个人隐私了吗?

依据维基百科,Cookie是某些网站为了能够辨别用户的身份,而储存在用户本地电脑上的数据(一般经过加密)。简单地说,就是当用户在访问网站时,该网站会通过浏览器站建立自己的Cookie,它负责储存用户在该网站上的一些输入数据与操作记录,当用户再次浏览该网站时,网站就可以通过浏览器查探针对该Cookie,并以此识别用户身份,从而输出特定的网页内容。

Cookie产生流程图(图片来自搜狐IT)

需要说明的是,Cookie由网站建立在本地电脑中,它是你在这个网站的唯一身份标识,而且每次访问该网站时,浏览器都会将该网站的Cookie数据包返回到服务器,并根据服务器指令对Cookie进行修改。一般来说,每一个网站都会有一相对应的Cookie,而且在日常上网行为中,用户的一举一动几乎都脱离不了Cookie。

例如,当用户在电商网站挑选商品时,其商品浏览记录、购物车状态等信息通常都会先保存在Cookie当中,这不仅可以有效缓解服务器的读写压力,而且还能方便用户下次浏览。

Cookie另一个典型的应用是当登录一个网站时,网站往往会请求用户输入用户名和密码,并且用户可以勾选“下次自动登录”。如果勾选了,那么下次访问该网站时,用户无需再输入用户名和密码就已经是登录状态了。这是因为前一次登录时,服务器发送了包含登录凭据(用户名加密码的某种加密形式)的Cookie到用户的硬盘上。第二次登录时,(如果该Cookie尚未到期)浏览器会发送该Cookie,服务器验证凭据,于是不必输入用户名和密码就让用户登录了。

正是基于这些用户上网数据与行为的记录和存储,使得Cookie成为了网络广告服务商眼中的“香饽饽”。随着而来的,就是可能存在的数据被盗和用户隐私遭泄露的风险。

首先是安全方面。由于Cookie中可能包含一些用户名、电脑名、邮箱地址等敏感信息,因此在受到跨站点脚本(Cross site scripting)攻击时,用户电脑中的Cookie就会面临被窃取或投毒(窜改Cookie内容),虽然Cookie中的内容一般都经过加密处理,但这并不能完全保障Cookie的安全性。

其次是用户隐私方面。由于每当用户访问一个网站,都会产生一个对应的Cookie,因此在遇到网页臭虫图片时,用户的上网习惯被可能被收集,甚至用户的上网输入数据也会遭窃取,而央视315晚会上所曝光的,正是第三方网络广告公司,直接将图片挂在用户当前访问的网站上,并以此建立Cookie,搜集用户上网数据。

Cookie其实是个世界性难题

据央视315晚会报道,国内多家网络广告公司在用户不知情的情况下,通过Cookie采集用户信息,泄漏用户个人隐私。其中,易传媒号称拥有3亿多互联网用户Cookie数据,悠易互通、艾维邑动号称拥有5亿网民Cookie数据,传漾公司号称拥有9亿Cookie,亿玛在线号称拥有9亿Cookie,而这些公司获取用户Cookie,基本都是通过在别的网站加代码实现的。

相信很多人也很关心,央视315晚会上所曝光的问题,即Cookie到底有没有窃取用户隐私,以及那些广告公司张口就是数亿Cookie的说辞,可信吗?新浪微博前端技术专家杨永林(@教主)就用从技术角度解释了这个问题。

比如某网站S的页面上有一张来自某营销网站B的图片,那么它们的关系如下:

你访问的网站S中嵌入了B的代码,那Cookie怎么算呢?

你在访问网站S的时候,你同时也以B用户的身份访问了B网站。你说“我没在B网站注册啊,怎么会是B网站用户”。嘿嘿,不用你注册,因为也不需要你知道,他是自动分配一个帐户给你的,如果像S这类的网站多了,B网站想在不同网站之间都能定位到你,怎么办?把分配给你的帐户存在B的Cookie里就行了啊。这就是它们所谓的几亿的Cookie。

据杨永林解释,你可能注意到B网站在拿到Cookie的同时,还获取到了一些信息,这些信息是否涉及到隐私就看网站S的节操了。一般大网站只会把一些简单的页面信息给B,比如看了什么视频啊,新闻啊等等,其目的也是让广告主投放的广告更精准。

我们无意讨论央视的“私心”与“阴谋论”,但央视315晚会所曝光的上述几家公司,均发表了声明自证清白,并暗示一切都是为了“精准营销体验”。

品友互动在回应中声明,他们严格按照国际上关于隐私保护的最高标准实践,从未在经营过程中釆集任何个人身份识别信息(PII信息),或泄露任何个人用户信息。同时他们也强调,以精准投放、大数据营销为特征的互联网广告正在逐步成为未来广告市场主流。

悠易互通在声明中则直接承认他们会通过浏览器cookie采集信息,但强调其对保护用户隐私一直恪守行业内最高标准,并称从未也不会收集任何人的身份识别信息(如姓名、邮箱、电话等)。

亿玛公司总裁柯细兴也喊冤,称亿玛的Cookie数据仅用于自身广告匹配提升改善网民体验。他表示,Cookie分析是全球精准营销公司和广告网络运营基础,是营销体验和效果提升的有效手段。传漾公司也针对央视报道做出了类似的声明。

如果认真解读的话不难发现,在上述这些公司的声明中,他们似乎也是“有苦说不出”:一方面无法摆脱在用户不知情的情况下采集Cookie的事实,另一方面却不得不暗示“精准投放、大数据营销”的产业趋势下,采集Cookie是安全的、必须的——这多少都有些“卖了贞操树起牌坊”的讽刺。

其实Cookie问题不仅在国内有,在国外也有。美国、欧盟、日本等地区针对DNT和Cookie采集就有两种截然不同态度,他们以行业为阵营,各自摇旗呐喊。其中,以广告商为主的一方反对改变现状,坚持认为Cookie可以帮助提升营销体验和用户体验,而以浏览器厂商为主的一方,则认为应服从用户保护隐私的需求,并相继推出DNT功能。

在国内,这对矛盾也在渐渐露头。央视315晚会还没结束,360就迫不及待地在微博上推广其浏览器产品,并重点强调DNT服务、清除Cookie等功能。搜狗、猎豹等也借Cookie势头在微博上推广自己浏览器产品。这也是继Safari、IE10、Chrome、Firefox等国外浏览器之后,国内浏览器厂商第一次拿广告联盟“祭旗”,大规模推广DNT功能。

而精准广告厂商则纷纷站出来宣扬Cookie无罪,并强调Cookie对精准营销的必要,他们希望“联合行业伙伴”,配合相关政府组织和行业协会制定行业标准和规范。

但正如1号店产品设计副总裁王欣磊所讲,Cookie的确是无罪,但当一个用户访问一个网站时,精准广告公司是否有权利在用户不知情的情况通过第三方Cookie来收集用户的访问行为,这个才是精准广告行业用户隐私的根本问题。

不过想一想,当你访问某网站时,该网站上的某个广告图片(代码)向你提示,要采集你的Cookie、记录你的上网行为时,你会如何动作?

只要上网,你就会成为大数据的一部分

相信很多人都遇到过这种情况:在淘宝搜索了某产品,比如袜子后,如果你访问其他网站,并且这个网站有嵌入淘宝联盟的代码,你就能发现淘宝联盟推荐的产品广告,几乎都是与袜子有关的。

如果你在百度搜索某关键字,比如考研成绩后,你就会在挂有百度联盟广告代码的网站上,看到百度推荐的与考研有关的广告信息。这些都是目前网站普遍采用的跨站跟踪和Cookie跟踪等手段收集用户上网行为数据,并通过分析用户上网习惯来投放精准广告的典型案例。

在互联网大数据营销中,你是谁(PPI)已不再重要,重要的是你身上的标签,例如位置、性别、年龄、兴趣、方向以及职业等,按照这些标签,你可能会在大数据挖掘与分析中,被划分为某一类人(如收入过万的单身白领男、两岁孩童的妈妈、对数码感兴趣的大学生等),并根据你的身份类别信息,向你推送广告主想定向营销的品牌或推广的产品,以及你可能感兴趣的广告内容。

目前阶段,国内互联网公司中有实力、有资源搜集海量用户数据,并能对此做大数据挖据与分析,实现定向精准营销的,只有百度、淘宝等少数几家互联网巨头。

百度布局大数据定向精准营销的时间比较早。从2008年开始,百度先后推出了网站定向技术(PT),主题词定向(CT)、搜索词定向(QT)、到访定向(RT)、兴趣定向(IT)等多种定向精准营销技术。

百度鸿媒体大数据挖掘的基础是用户Cookie

为了进一步挖据广告受众信息,百度还针对广告主推出受众引擎产品。据介绍,百度受众引擎聚集海量数据及多重技术的优势:以来自百度及百度联盟的近60万家合作伙伴与5亿网民,以及千亿级别网络行为作为“大数据”基础;同时全面整合兴趣点、搜索关键词、浏览主题词、到访页、网站及再营销6大定向技术,进而描绘受众自然属性、长期兴趣爱好与短期特定行为,最终使受众特征全方位、多角度、生动形象的呈现出来。

此外,百度受众引擎还可以给广大广告主提供“人群菜单式”的投放系统,通过选择目标受众的性别、地域等自然属性、以及包含19个一级兴趣点、53个二级兴趣点的长期兴趣爱好,结合搜索、浏览、到访等短期特定行为,对目标用户进行轻松锁定,精准推送其最关注的领域与信息。

虽然互联网内容整体呈现出爆炸式增长态势,受众的网上行为也呈现出碎片化与随意性,但从上述百度的介绍中不难发现,在大数据面前,用户已经毫无“隐私”可言,“互联网比你自己更懂你”,已经不再只是一种说辞,它正成为现实。

不过互联网信息越开放,人们对个人隐私问题就会越来越在意。当互联网企业还在思考如何从海量的数据中挖掘出广告主最需要的营销价值时,已经有用户开始产生恐慌焦虑,并付诸了行动。

为避免过度收集此类数据而侵犯用户隐私,W3C(国际互联网联盟)发布“禁止追踪”标准草案,明确只有在用户同意下才能存储及使用用户信息。目前,国外多款主流浏览器产品都已经在新版本加入“禁止追踪”功能选项。

不过“禁止跟踪”功能只是告诉网站,用户不想被跟踪,但它并不能从技术上阻止网站放置Cookie、植入Cookie。而最靠谱的莫过于用户定期手动清除Cookie——虽然听起来有些难为人,但这却是用户获得互联网信息,并兼顾个人隐私的最稳妥的办法之一。

Cookie已经20岁了,在用户隐私遭侵犯日益严重的当下,它依然没有罪,而需要反省调整的不应该是它,而是我们自身。

大数据来自于每一个互联网用户,但人们普遍担忧个人隐私问题时,大数据是否也需要妥协,让用户具有选择权?我愿意提供哪些数据、不愿意提供哪些信息,我可以接受什么类型的广告,不能接受什么类型的广告,这都应该给用户一个自由选择的权利与机会,而不是偷偷摸摸、在不用户不知情的情况下,自主替用户做出连他们都不能更改的选择。

央视315晚会将Cookie曝光成一个极具危险性的东西。事实上在目前的网民群体中,甚至包括部分互联网从业者,能够真正了解Cookie的不会太多。在媒体、安全厂商、浏览器厂商等的极度渲染中,Cookie和广告联盟似乎成了罪不容赦的恶首。

其实,我们更希望安全厂商和浏览器厂商,能够让用户认知Cookie,而非恐惧Cookie。恫吓用户,不应该成为一种绑架用户的手段。

网友评论