站长之家首页 > 评论 > Python最新资讯 > 正文

只需五步!哈佛学霸教你用Python分析相亲网站数据,在两万异性中找到真爱

2019-09-26 10:31 · 稿源:大数据文摘公众号

情侣 婚恋 结婚

声明:本文来自于微信公众号大数据文摘(ID:BigDataDigest),编译:啤酒泡泡、张大笔茹、张睿毅、牛婉杨,授权站长之家转载发布。

想脱单?那还不容易!

如果身在美国,就像其余四千万单身男人一样,注册一下Match.com, J-Date和OkCupid等相亲网站,坐等真爱上门不就可以了。

但是相信大多数人和McKinlay一样,尽管向OkCupid算法推荐匹配的女性发送了许多暧昧私信,但绝大多数都石沉大海了。

转折出现在 2012 年 6 月的一个早上,这个只进行过 6 次线下约会的男人正在电脑上编译机器代码,另一个窗口显示着他孤零零的交友头像,他突然顿悟:他一直在使用错误的方法寻找爱情。

为了不辜负自己在应用数学领域取得的成绩,他决定,在OkCupid上爬取每一条相关信息,利用关键的K-Modes的改良贝尔实验室算法找出数据规律,缩小范围,然后一击命中。

换句话说,这是一次数学家独创的完美约会经验贴,还不快来看看!

第一步:分析失败原因,知己知彼

OkCupid是哈佛大学的数学系学生于 2004 年创立的约会网站,最初这个网站吸引人们注意力的是它基于计算方法的配对模式。会员会回答很多多项选择问题,这些问题覆盖面很广,包括政治、宗教、亲情、性、以及智能手机等。

通常,系统会从上千道问题的题库里选出 350 道问题—— “以下哪种情形最有可能让你去看电影?”或是“宗教/上帝在你的生活中有多重要?”

对于每一道问题,用户会选择一个答案,以说明自己伴侣的哪一个回答是他可以接受的,并通过给问题评分来表明问题对自己的重要性( 5 分制,从无关紧要到必须回答)。OkCupid的匹配引擎会利用这些数据来计算男女之间的合适程度。越接近100%,所谓数学意义上的灵魂伴侣就越匹配。

McKinlay从数学上分析了自己一直以来的失败原因。

OkCupid的算法只会使用双方都愿意回答的问题去计算,而McKinlay选择的问题有些随机,并不主流。当他查看与自己匹配的人时,匹配度超过90%的女人不到 100 个。要知道,洛杉矶有两百万女性(大约八万女性在使用OkCupid)。如果把匹配度比作可见度,那McKinlay可以说就是个看不见的幽灵。

他意识到他应该去提高匹配的人数。如果McKinlay通过统计取样确定哪些问题是他喜欢类型的女人愿意回答的,那么他便可以诚实地回答这些问题而忽略其他问题,以此来创建一个全新的用户。利用这个办法,他可以匹配到在洛杉矶的每一个可能与他配对的女人,而不会匹配到不合适的人。

第二步:借助Python,求助好友,疯狂收集数据

Chris McKinlay利用Python脚本浏览了上百道OkCupid的问卷题目,然后把女性用户分为七类,每一类都会贴上独特的标签,例如“多才多艺的”和“细心体贴的”等等。

即便作为一个数学家,McKinlay也是个不同寻常的人。他小时候在波士顿郊区长大, 2001 年他从Middlebury学院毕业并获得汉语言学位。同年 8 月份,他在纽约世贸中心北塔 91 层的一家公司里找了一份兼职工作,工作内容是将中文翻译成英文。五周后的一天,世贸大厦倒塌了。(那天,下午两点前McKinlay都没来公司。当第一架飞机于早上 8 点 46 分撞上大厦的时候,他正在睡觉。)

“自从那件事后,我问自己,我究竟想做什么”他说。他的一个在哥伦比亚大学的朋友招聘他进入了一个由麻省理工职业 21 点团队衍生出的一个团队,这之后的几年里,他便往返于纽约和拉斯维加斯,他的工作是数牌,一年能挣六万美金。

这段经历点燃了他对应用数学的兴趣,最终促使他在这个领域取得了硕士和博士学位。“他们能够在很多不同的情景下使用数学知识,”他说,“他们会见到一些新的游戏,比如‘三张牌的牌九扑克’,然后回家写点代码,接着就能找到策略去打败它。”

现在,他想用同样的方式去寻找爱情。首先,他需要数据。就在他用旁边的窗口进行论文写作的时候,他建了 12 个假的OkCupid账户并写好了Python脚本去管理这些账户。这个脚本会搜索他的目标群体( 25 到 45 岁的异性恋或双性恋的女人),访问她们的主页,然后爬取她们账户上每一条有用的信息:种族、身高、是否吸烟、星座—— “这些我全都要”他说。

为了找到心仪的另一半,他还做了一些额外调查。OkCupid可以让用户看到其他人的回答,但只能看到那些他们自己已经回答过的问题。 于是McKinlay设置了自己的机器人程序,以简单地随机回答每个问题,他并没有使用虚拟的个人资料吸引任何女性,因此答案并不重要,主要他要将这些女性的答案收集到了数据库中。

McKinlay满意地看着他程序一路狂奔。 然后,在收集了大约一千个档案后,他遇到了第一个障碍。OkCupid有一个短平快的系统来防止这种数据收集,他的程序一个接一个地被禁。

因此他必须把自己的程序训练的更像真人一些。

他求助他的神经科学家朋友Sam Torrisi,最近刚教过McKinlay音乐理论以换取高级数学课程。Torrisi也注册了OkCupid,他同意在他的计算机上安装间谍软件来监控该网站的使用。根据手中的数据,McKinlay通过编程模拟Torrisi的点击率和打字速度。他从家里带来了第二台电脑并将其插入数学系的宽带线路,以便可以 24 小时不间断运行。

三周后,他已经收集了来自全国各地 20000 名女性的 600 万个问题和答案。

第三步:将 20000 名女性分为 7 类,找出最适合自己的

按照McKinlay的工作计划,他需要从调查数据中找到一个规律,即需要根据相似性粗略地对女性进行分组。这个问题在他编写一个名为K-Modes的改良贝尔实验室算法时取得了进展。

K-Modes算法 1998 年首次用于分析患病的大豆作物。

他通过算法发现了一个自然的分割点,根据问题和答案,20, 000 名女性被分为成七个统计学组。 “我太高兴了,”他说,“那是六月份令我最兴奋的事情了。”

他重新设置条件来收集另一个样本库:在过去一个月内登录OkCupid的来自洛杉矶和旧金山的 5000 名女性。通过K-Modes的另一次分组确认他们以类似的方式聚集并确保统计抽样有效。

现在只需要决定哪个类群最适合他了,在抽查了每个类群的一些档案后,发现一个类群太年轻,两个太老,另一个太“基督”了。于是他徘徊在一个二十五岁左右的女性主导的类群中,工作类型比较独立,像是音乐家和艺术家。这简直是黄金单身群!

就像是大海捞针,他找到了他的针,也就在这个类群的某个地方,他找到了真爱。

一个相邻的类群看起来也引起了McKinlay的注意:年龄稍微大一些,从事专业的创造性工作,如编辑和设计师。他决定将两个类群都设定为自己的目标!于是设置了两个配置文件,A、B组各优化一个。

第四步:真诚填写相关问题,找出灵魂伴侣

他对这两个类群进行了文本挖掘以了解她们感兴趣的内容:教学是一个热门话题,因此他撰写了一篇强调了他作为数学教授工作的文章。

更重要的是回答问题,于是他挑选了两个类群中最受欢迎的 500 个问题并决定诚实地填写答案,他不想在计算机生成的谎言的基础上建立未来的恋爱关系。但是他会使用一种称为自适应提升的机器学习算法来得出最佳权重,从而让计算机确定分配每个问题的重要性。

有了这个后他发表了两个照片,一个是攀岩的照片,另一个是在音乐演出中弹吉他。

“无论未来的计划如何,你现在对什么更感兴趣?性还是爱?” 这个问题的答案很明显是爱。但对于年轻的A群,他尊重计算机将问题评为“非常重要” 的结果。对于B群集,它则是“必须回答”的问题。

当回答完最后一个问题时,他按照匹配百分比对洛杉矶的女性进行了OkCupid搜索。从头开始:第一页匹配率全是99%女性。向下滚动......然后......向下滚动……,来自洛杉矶各地的一万名女性迎面而来。

离被关注还差一步! OkCupid会员在有人查看他们的网页时会收到通知,因此他写了一个新程序来访问查看他主页的女性的主页,并按年龄循环:周一有 1000 名 41 岁的女性,周二有 1000 名 40 岁的女性。两周后,轮到了 27 岁的女性。女性会回访他的个人资料,每天约 400 名左右。然后,私信开始滚滚而来。

“直到现在我还没有遇到过如此匹配的人,而且我发现你的个人资料很有趣,”一位女士写道,“对于一个擅长数字的粗犷男人......我觉得我想认识你。”

“嘿,你的个人资料很棒,我想认识你,”另一位写道,“我认为我们有很多共同之处,也许不是数学,但肯定还有很多!”

“你真的会翻译中文吗?” 还有人问道,“我上了一些课,但学的并不好。”

至此,数学部分已经完成。接下来,他需要离开他的小隔间,进入实际演练阶段,他要去真正的约会!

第五步:走出小隔间,来一场真正的约会

6 月 30 日, McKinlay开着他的尼桑穿越城镇来到加州大学洛杉矶分校的健身房,开始他的约会实践。Sheila是一位来自“A类群”的年轻的网页设计师。他们在Echo Park的一家咖啡馆吃了午饭。 “太不可思议了,这简直像一场学术活动一样。”

与Sheila约会结束后,双方都觉得不来电。第二天,McKinlay进行了第二次约会,一个来自 “B类群”的博客编辑。他们计划在Echo Park Lake周围散步,却发现正在施工。女方一直在读普鲁斯特并对生活感到失望。 “这有点令人沮丧,”他说。

第三天的约会也来自“B类群”。他在韩国城的一家酒吧遇到Alison。 她是一名实习编剧,肩膀上还纹了斐波那契螺旋。McKinlay喝了很多韩国啤酒,第二天带着痛苦的宿醉在他的小隔间醒来。他后来在OkCupid上私信她表示想继续约会,但她没回。

虽然他被拒绝了,但每天仍然收到 20 条消息。实践约会显然与计算机配置文件约会是完全不同的。他开始忽略一些主页没有内容的人的消息,只回应那些有幽默感或在首页展示一些有趣的东西的人。以前他作为主动方,会交换三到五条消息来获得一个约会日期。现在就只发一个回复。 “你看起来很酷。想见面么?”

20 个约会之后,他总结了一些潜在的规律。在较年轻的群体中,女性大多数有两个或更多的纹身,而且住在洛杉矶的东边。另一组中,她们疯狂的喜欢中型犬。

早期的约会他会经过精心策划。但当工作越来越忙时,就开始在午餐或咖啡时间偶尔参加休闲聚会,而且经常一天之内约两场。他制定了一套个人规则来完成“马拉松爱情”搜索:不再约喝酒,如果不来电就赶快结束不要拖拉,不约音乐会或电影。 “约会中你们需要关注的是彼此而不是别的什么东西,不然效率会很低。”

经过从他的两个档案中同等挑选约会的一个月后,他发现他耗费了太多时间在纹身群中接触东边的女性。他删除了他的A组简介。他的效率虽然提高了,但结果是一样的。随着夏天即将结束,他已经有过超过 55 次约会,每日都尽职地在实验笔记本上记录。只有三个产生了第二次约会,只有一个进行了第三次。

大多数不成功的约会者都面临着自尊问题。对于McKinlay来说其实更糟糕。他不得不检查他的计算。

后来一个来自 28 岁的艺术家Christine Tien Wang发来了消息。McKinlay之前在加州大学洛杉矶分校附近搜索到她, 6 英尺高蓝眼睛的人,正在那里修她的美术硕士学位。他们有91%的适合度。

他在校园的雕塑花园遇见了她。从那里他们走到一个大学寿司会场,他立刻感觉到了来电了!他们谈论了书籍、艺术、音乐,当她承认她在给他发消息之前对她的个人资料做了一些小改动后,他给她讲述了关于他黑进爱情网站的整个经过。

“我认为这样做有点腹黑和愤世嫉俗,”她说,“但我喜欢。”

这是第一次约会,第二次紧随其后,然后是第三次约会。两周后,他们都暂停了他们的OkCupid帐户。

我认为我所做的只是每个人在站点上所做事情的一种略微算法化,大规模且基于机器学习的版本。” McKinlay说。每个人都试图创建一个最佳的配置文件,他只是有数据来设计一个。

这是他们第一次约会的一年后,McKinlay和Tien Wang在韦斯特伍德寿司吧台和一位记者见面,他们的已经正式确定关系了。McKinlay获得了博士学位,他正在教数学,目前正在攻读音乐研究生学位。Tien Wang被卡塔尔录取并获得为期一年的艺术奖学金。她在加州和McKinlay见面。他们一直在Skype上保持联系。

根据记者的要求,McKinlay带来了他的实验笔记本。 Tien Wang之前没见过它。这是McKinlay紧密笔迹中的公式和方程式的页面,以一个整齐排列的女性名单和约会清单结尾,其中含有一些简短的注释。Tien Wang扫读了一遍,觉得一些亮点有点可笑。 她注意到, 8 月 24 日,他在同一天带了两个女人到同一个海滩。她说: “太可怕了。”

对Tien Wang来说,McKinlay的OkCupid黑客历程是一个有趣的故事。但所有的数学和编码只是他们故事的序幕。见面后,恋爱关系才真正被黑客入侵。 “人们比他们的个人资料要复杂得多,”她说,“所以我们遇到的方式有点肤浅,但我们之间发生的一切都不是肤浅的,它是通过彼此的努力培养出来的。”

“这不是说,我们匹配因此我们关系很好,” McKinlay表示赞同, “这只是一种将我们放在同一个空间的机制,我能够使用OkCupid找人。”

Tien Wang对此有点愠怒:“你没找到我,我找到了你。”她摸着他的手肘说道。McKinlay停下来思考,然后承认她是对的。

一周之后,Tien Wang又回到了卡塔尔,这对夫妇每天都会拨打一个Skype电话。当McKinlay拿出钻石戒指并将其举到网络摄像头前像她求婚时,Tien Wang说 “我愿意”。

他们结婚时间并不完全确定,McKinlay说需要进一步研究以确定最佳婚礼日。

相关报道:

https://www.wired.com/2014/01/how-to-hack-okcupid/

  • 大家在看
  • 相关推荐
  • 声网水晶球2.0--RTC行业首个质量监控与数据分析工具再升级

    新冠肺炎疫情的特殊时期,基于线上的学习、工作成为主流模式。但从实际体验来看,非常多的在线课堂、视频会议都遇到了视频卡顿、模糊、声音有回声、杂音等一系列质量问题。这些质量问题,对于用户来讲会直接影响使用体验。而对于企业和开发者来讲,如果不尽快定位异常,不仅会面临用户投诉,在产品迭代过程中也无法快速排除隐患提升质量。 2019 年Q4,声网Agora发布了实时通话质量监测服务“水晶球2.0Beta“,提供更全面的RTC服?

  • 融360|简普科技数据分析 宝宝理财收益连跌五周,收益榜仅有一只超3%

    2020 年 3 月 16 日- 3 月 22 日,宝宝理财产品平均收益率再次下跌,下跌局面已经持续五周,但银行产品收益率有稍微回涨。宝宝理财平均七日年化收益率为2.21%,环比下降13BP。银行理财产品平均收益率为3.94%,环比上涨1BP。数据来源:融360|简普科技大数据研究院融360|简普科技大数据研究院采集的样本为 78 只互联网宝宝产品,共对接 236 只货币基金,去重之后是 135 只, 3 月 16 日- 3 月 22 日互联网宝宝产品平均七日年化收益率

  • 二月份运营数据分析:三大运营商重心转移 5G成竞争主战场

    ​受疫情影响, 2020 年开年,三大运营商创下4G商用以来最差开局,并将这一糟糕的势头延续到了 2 月份。运营商移动用户和4G用户数据欠佳,宽带用户增长放缓。但是, 2 月份是值得被通信行业铭记的月份,因为从这个月开始,中国电信不再公布4G用户数,转而开始公布5G数据。而此前,中国移动也已经开始公布5G数据。一方谢幕,一方登台,属于5G的时代真正开始了!

  • Python十大魔术命令可助你提高生产力

    Python不仅是最如今最通用的编程语言,而且在集成新功能时也是最灵活的,比如魔术命令(Magic commands)就是python shell当中重要的功能之一。以下我们来看下10个简单的魔术命令是如何帮助工程师提高生产力。

  • 在快手直播相亲,我参透了爱情的真谛

    但我确实上快手相亲了,而且,在各大直播间蹲了两周,围观了至少 100 场别人相亲。主播主页作品里随处可见的“XX对相亲成功”和“又有一对结婚啦”,比《非诚勿扰》还让人心动。

  • 伊对相亲受单身人群欢迎 成为约会交友类主流App

    视频相亲领域是一个新兴互联网品类,目前有数十家从业企业,包括腾讯、YY等知名互联网企业。经过这两年的发展,各大平台积累了可观的用户数,而且仍呈现快速增长势头。作为这个领域的创新品牌,伊对在用户体验和服务上频频发力,公开资料显示,伊对是视频相亲领域头部品牌,自上线以来注册用户超过4000万。2019年,伊对的用户新增速度领跑同行业,App下载量排名进入iOS社交榜前十。据移动数据分析机构 App Annie最新数据显示,视频

  • 伊对4万红娘撮合相亲 我们为啥还离不开“媒人”

    听说伊对视频相亲App每个月举办 1000 万场(注意这个“万”字哦)线上相亲。有 4 万多红娘每天都给组织活动。如此壮观相亲场面,真吓了我一跳。一开始以为是因为疫情来了,婚介所都跑线上去,后来却发现这些人都是网友。网友帮网友,看来脱单真成了“人民战争”。我们的媒人文化真是代代相传,经久不息,借助互联网老树开花啊。“媒人”自古有之。按照古代神话的说法,最早的媒人是女娲。她老人家造人的过程很辛苦,于是想出一个妙招

  • 分析引擎2.0已来,神策数据再刷行业标准!

    2020 年初,疫情让许多创业公司紧急刹车,这无疑是一次极限压力测试。它让所有企业都知道,“黑天鹅”随时都会来,反脆弱能力很重要。 神策数据的反脆弱能力源于夯实的基本功。在过去的 5 年里,神策数据服务了 1000 余家企业。依托底层数据采集、建模、分析、应用的标准化的用户分析体系,神策数据使得超过EB级别的海量数据能够高效处理,并以秒级的响应速度,服务并驱动千余家企业的发展。 期间,神策数据定义了公认的行业最高?

  • 分析机构AppAnnie秒撤榜单:拼多多超淘宝数据疑闹乌龙

    4 月 9 日,AppAnnie发布 2020 年第一季度全球热门应用榜单,榜单显示,在月活跃用户方面,拼多多上升 2 位超过淘宝位居第九,淘宝下降 2 位位居第十。

  • 在快手直播相亲,“200块保证脱单”背后的赚钱套路有多野?

    什么?快手相亲?还要交钱?我的职业病瞬间犯了:该不会是灰产吧?虽然他再三跟我强调绝对不是骗钱,但是我还是特意去下载了一个快手,打算去「相亲主播」那里“卧底”一下,搞清楚他到底有没有被骗。

  • 看行业大数据分析2020年线下电竞门店应该如何“破与立”?

    当下,全球电子竞技产业已经进入了令人震惊的快速发展阶段。据Newzoo统计报告显示: 2019 年全球电子竞技市场规模达到了 10 亿美元以上,预计到 2025 年,全球电子竞技市场规模将增长至 25 亿美元左右。回首 2019 中国电子竞技:FPX夺冠S9 全球总决赛,各大电竞赛事收视率突破新高、各地政府相继出台电竞扶持政策、5G、VR等科技技术的快速迭代升级也对电竞行业的发展产生了巨大的推动力...尽管突发的疫情,让整个电竞行业面临了不?

  • 直播相亲、连麦观影,谁能挑战陌陌,做出陌生人社交领域的“字节跳动”

    中国有2.4亿单身群体,他们的陌生人社交需求不是一个陌陌就能满足的,现有产品的不完美让新玩家源源不断地涌入赛道。

  • 大学生网上相亲,让“美国钉钉”涨疯了,李嘉诚一笔投资赚了170倍

    Zoom的铠甲和软肋。4 月 6 日,胡润研究院发布了一份报告,显示疫情期间全球富豪两个月损失了2. 6 万亿元。但也有例外,一位叫袁征的富豪疫情期间财富增长77%,达到 565 亿元。 袁征是“美国钉钉”Zoom的创始人,持股11.41%。

  • 云测数据:新基建时代的“AI数据雄兵”

    几年前,AlphaGo瞬间点燃了AI的激情与梦想,巨大的光环把AI推向了市场的风口。之后的几年国内的AI创业虽然几经起落,但也逐渐走向成熟。AI产业将逐渐褪去浪漫主义的“光环”,走向实用主义的落地。在 3 月 4 日,国家决策层提出要发力于科技端的基础设施建设,人工智能成为“新基建”七大版块中的重要一项。“新基建”的呼啸而至,显然为中国AI产业的稳步推进起到了关键的作用。简单回顾一下AI的发展历程,AI的三大要素是指算法、?

  • 数据科学课应该如何开展,数据竞赛平台带来的启示

    随着数据科学与人工智能相关理论的快速发展,传统行业若没有借用数据科学方法,仅在自己的专业领域深耕,已经无法高效解决快速变化的学科研究与应用中面临的一些新问题。在数据智能时代,如何利用人类有限的算法来处理日益增长的数据,如何帮助社会实现“数据商业化”、创造数据产生的衍生价值,已经成为众多领域亟待解决的问题。数据科学相关专业发展迅速,学科建设难度不可小觑自 2016 年教育部首次批准部分本科院校开设“数据科

  • 七麦数据上线“App收入预估”功能 数据范围覆盖iPhone、iPad设备

    4 月 1 日,七麦数据上线了“App收入预估”功能。目前,该功能数据范围仅覆盖iPhone、iPad设备,支持以“近一天”“近一个月”“近三个月”及“自定义”的多重时间维度查询。

  • 和鲸发布《数据科学教育白皮书》,揭示如何打造数据科学教育项目

    毋庸置疑,数据科学必将成为未来十年最火的新专业,那这个专业究竟该如何建设?做为非传统的新专业,数据科学的教育目前存在着很多痛点:就师资而言,多数教师实际是缺少数据科学学科积累的,教学资源是否充足?课程大纲的设计是否合理?这些都有待认证。协同管理工具的缺乏以及真实数据案例的缺少,也导致了教学的实践训练过程受到限制,同时学生在实训过程中也难以找到可以高效协作的科学方式。除此之外,在学生毕业之后如何适应

  • 抖音开放平台推抖音数据服务,包括粉丝群体画像、热点数据

    抖音开放平台月 3 月 30 日推出抖音数据服务,从中可获取:经抖音用户授权后的用户公开数据和相关统计数据、公开视频数据、粉丝群体画像数据、热点数据以及星图榜数据;针对服务商,抖音也将定制化推出POI的相关数据。

  • 骑马与砍杀2全部NPC属性数据大全 最强伙伴NPC属性数据一览

    骑马与砍杀2中伙伴NPC有非常多,那么什么NPC才是最强的呢?下面就来为大家分享一下骑马与砍杀2中全部NPC的属性数据信息大全。

  • 荣耀手表2优势分析 重新定义智能穿戴

    荣耀手表 2 一经上市便广受好评,在当下市场智能手表竞争激烈的大环境下,荣耀手表 2 收获了大批黑科技粉,是什么让荣耀手表 2 如此受欢迎?以下几个方面不得不知道。荣耀手表 2 作为一款主打运动健康的智能手表产品,不管是内含科技还是外形外观都极具现代感、科技感、运动感。在内含科技方面,荣耀手表 2 搭载了华为首款自研可穿戴芯片--麒麟A1 芯片。这款芯片支持BT/BLE双模5.1,并且能够连接超级蓝牙以及多核高效地合作工作。?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议

热文

  • 3 天
  • 7天