首页 > 数说 > 关键词 > Python最新资讯 > 正文

Python 爬取 394452 条《都挺好》弹幕数据,发现弹幕比剧还精彩?

2019-03-29 10:40 · 稿源:CSDN公众号

声明:本文来自于微信公众号 CSDN(ID:CSDNnews),作者:周志鹏,授权站长之家转载发布。

狂野男孩大强下线的第三天,想他,想他,想他……

最近《都挺好》真的挺火。

火到什么程度?微博热搜霸榜,办公室评弹声四起,大强轻松攻占表情包,甚至连 N 年不追剧的“瘦宅”们也开始沉迷其中,大呼真香。

剧很精彩,但追剧界有句俗话说得好:“弹幕往往比剧更精彩”,为了让精彩延续下去,我终究没能忍住对(腾讯视频)弹幕下手。

经过一番折腾,发现弹幕是 JSON 格式动态加载的,而且加载得非常有规律,30 秒一发(80-100 条),多出的会隐藏。共计爬取了 394452 条弹幕(雨露均沾,每集平均 8575 条,每 30s 的间隔爬取),来挖一挖弹幕这个宝藏。

弹幕基本盘概览

爬到的源数据是酱紫的:

发现有部分用户名是缺失的,由于这部分用户占比很小(仅 0.61%),所以我们直接暴力除去这部分噪声。

清洗之后,还剩下 117484 个用户发送的 392051 条弹幕,人均发送弹幕量 3.34 条。

再看看每个人发送弹幕数是怎么样分布的:

显而易见,大部分用户还是比较佛系的,71607 位用户(占比 60.95%)在 46 集中只发送过 1 条弹幕,他们内心严格遵循“爱就一个字,我只发一次”的弹幕发送准则。

发送条数在 3 条及以内的用户数占比达到了 83.73%,他们累计贡献了 133331 条弹幕,占到弹幕总数的 34.01%,反过来看,剩下 16.27% 的用户贡献了弹幕量的 65.99%。从这个角度来看,二八法则在这里更像是二七法则(20% 的用户贡献了 70% 的内容)。

是谁在疯狂发射弹幕,而弹幕又爱上了谁

弹幕发送量 Top10 榜单

我们都知道明成是“行走的造粪机”,那么从弹幕的角度来看,谁是“行走的弹幕发射机”呢?

为此,我们筛选出累计发送弹幕 Top10 的用户:

微微一操作(爬取、清洗和分析都使用 Python)


    danmu_counts = df.groupby('用户名')['评论id'].count().sort_values(ascending= False).reset_index()danmu_counts.columns = ['用户名','累计发送弹幕数']danmu_counts.head(10)


    上一步我们知道平均每个人在整部剧会发送 3.34 条弹幕,而弹幕发送排行榜前十的旁友们发送量都是过千级别的,我们再加上这个用户弹幕发送涉及到的集数,进一步看看平均每集发送弹幕数。为了更直观一些,可视化之:

    一位名叫“@L”的用户独占鳌头,是毋庸置疑的 C 位输出。在 46 集的电视剧中,他的弹幕血洗了 32 集,累计发射 2773 条弹幕,平均每集发送 86.66 条。

    什么概念呢?

    一集电视剧时长约 42 分钟,也就是说,这位大佬在看剧的同时,仍能保持每分钟 2.06 条的发送频次,还坚持了 32 集。

    到这里大家一定会有质疑,觉得他肯定是刷了大量的“666”、“来了”之类毫无意义的内容来霸榜,所以我把他的输出内容筛了出来并做成词云图:

    这……这位大佬输出的内容,不仅紧贴剧情,更是文风多变,时而总结内容,时而嬉笑怒骂,时而感慨人生,时而出口成诗,毫不夸张的说比一般弹幕都要有内涵。

    我的膝盖,开始不听使唤了......

    唯有疾呼“高山(频)仰止,景行行止”。

    谁的弹幕最受青睐(点赞数最多)

    根据每个用户累计点赞量排序,Get 到弹幕点赞 TOP10 排行榜:

    第一名“追剧小奶鹅”平均每集发 6 条弹幕,每条弹幕竟然能够得到 4585 个赞!难道这就是传说中的精神领袖吗?难道大佬之外还有大佬吗?

    在看剧的时候经常能够被他的弹幕刷屏,而且他的弹幕比其他人停留时间更长,颜色更艳丽。经核实,发现第一名,原来是“嫡系”:

    腾讯视频电视剧弹幕专业陪聊,怪不得这么高的赞。

    而第二名,又是我们的大佬“@L”,他凭借高频、稳定、持续输出累计获得 21.69 万赞,平均每条弹幕获赞 78.22 个。

    大佬,请收下我的膝盖!

    高赞弹幕有何套路

    A)嫡系部队:

    我们单独把腾讯的嫡系部队“追剧小奶鹅”拎出来,是因为他几乎垄断了高赞弹幕 Top300,嫡系光环加持,赞或许有虚高的嫌疑,但不妨碍我们单独分析他内容的套路(其实不少小奶鹅的弹幕并没有其他的精彩,但毕竟是亲儿子):

    暴力总结起来就一句话:对仗工整提大强,感天动地夸明玉。

    B)非嫡系部队:

    高赞的(非嫡系)朋友们深得演唱会那句带节奏名言“现场的朋友们,举起你们的双手,让我看到你们的热情”的真传。

    “觉得 XX 说得对点下谢谢”、“给 XX 点赞!”套路是获赞的一大法宝,另一法宝就是推动剧情的内容总结了。

    弹幕视角主人公情感分析

    谁是苏家最受弹幕关注的人儿

    要分析谁是苏家最受弹幕关注的人,必须先根据关键词去甄别和定位到剧中角色。

    这里列出了关于苏家人的简单词库,用来识别弹幕在议论谁。

    54.31% 的弹幕没有主观倾向性,没有提及具体的苏家人(可能提及了剧中其他人,这里暂不考虑)。

    明玉竟然抢过了大强的宝座,以 19.91% 的弹幕提及率拔得头筹,而大强则以 16.16% 的关注度紧随其后。

    Emmm,无论是剧外热度还是追剧时弹幕槽点,我都觉得大强应该才是最受关注的啊!

    作为一个严谨的追剧人,我开始排查弹幕,发现了很多戏精在发弹幕时都玩起了角色扮演,他们在发弹幕时,总是先在开头署名“苏明玉:” or 其他剧中角色,仿佛在代他们发声。

    清洗完这部分调皮的用户之后,排名出现了新的变化:

    果然,其他除外,大强以 15.16% 的关注占比领先其他家人一个身位,明玉又把两个哥哥拉开了一个身位的距离,占比 8.82%,明成和明哲关注占比分别是 4.84% 和 4.28%。

    P.S. 明成关注度之所以低,是因为很多弹幕骂人并不会指名道姓:),而明哲嘛,对这个排名表示很失望。

    弹幕情感分析

    看剧(弹幕)时能够明显感觉到观众对于明成的态度从最开始的“过街老鼠,人人喊打”到后来的“明成懂事了”。

    从数据分析的角度讲,明成是否成功洗白?大强最后催泪演绎效果如何?

    这里我们调用百度情感分析 API,对每一条评价的内容进行情感打分,用情感分值来验证上述问题(分值在 0-1 之间,越靠近 0 负面倾向越强,越接近 1 则情感越情面)。

    调用方法很简单:


      #先安装aip包from aip import AipNlp#到后台配置权限,获得相关ID和KEY,目前API是免费且不限量的app_id = '输入实际ID'api_key = '输入实际KEY'secret_key = '输入实际SECRET_KEY'client = AipNlp(app_id,api_key,secret_key) #定义函数,以便循环爬取def senti_analy(text):data = client.sentimentClassify(text)sentiment = data['items'][0]['positive_prob']return sentiment for text in df['内容']:try:sentiments.append(senti_analy(text))except:#print(text)sentiments.append('pass') df['情感分值'] = sentiments


      打分筛选过后,我们统计出每一集苏家每个人的平均情感分值,并绘制出曲线图(4 个人导致折线图可读性较差,所以只有委屈大哥了):

      1. 大强开局不错,和明玉持平,但凭借倪老师“作死小能手”的实力诠释,让情感分值迅速走低,11 集的低点正式印证了大强的“癫疯之作”,之后分值在 0.38 左右徘徊。随着“蔡根花宝贝”梗的出现,“嘲讽”替代了指责,让分值略微上浮(情感打分对于高级黑式嘲讽难以准确判断)。最后老年痴呆发病后大强对明玉的爱让分值一举超过 0.5,达到历史峰值,成功上岸。

      2. 明玉是原生家庭的受害者,也是一个靠自己成功的女强人,前期爱恨分明,情感分值一度飙到 0.59(超过其他所有角色),18 集开始的买房纷争,网友纷纷表示强烈同情(例:明玉不能像十年前一样别理他们吗?情感分值只有 0.041),这让明玉相关的情感分值严重走低,随后弹幕主旋律仍以叫好和同情为主。

      3. 明成的情感分值走势更有意思,开局最低,靠欺负妹妹让分值迅速降低,可谓“人人喊打”,后面则分值飙升,一度追上明玉,主要是因为明成期望值已经极低,但是他宠老婆的行为得到观众认可。中期本色挨骂,降至低谷。27 集明成情感分值再次超过 0.5,竟然是因为明成想吓走大强进行的一系列骚操作(尤其是广场舞)。再后来就是明成幡然悔悟,走上正轨,分值在稳定在 0.45 左右,也算成功洗白。

      看来,开局降期望,中期随便作,后期催泪逆风翻盘,终究还是会被观众接受。

      作者:周志鹏, 2 年数据分析,深切感受到数据分析的有趣和学习过程中缺少案例的无奈,遂新开公众号「数据不吹牛」,定期更新数据分析相关技巧和有趣案例(含实战数据集),欢迎大家关注交流。

      • 相关推荐
      • 大家在看
      • 浙江八年级新增Python编程课程 Python语言特点名称来源介绍

        浙江八年级新增Python编程课程是怎么回事?据媒体报道,浙江省今年 9 月份开始的新学期,三到九年级信息技术课将同步替换新器材。其中,八年级将新增Python课程内容。新高一信息技术编程语言由VB替换为Python,大数据、人工智能、程序设计与算法按照教材规划五六年级开始接触。

      • 风变编程:花时间学Python,是对自己未来最好的投资

        谷歌研究主任Peter Norvig曾说:从一开始,Python就一直是谷歌的重要组成部分,并且随着系统的发展和演变,到现在也是如此。如今,很多谷歌工程师使用Python,我们也正在寻找更多掌握这门语言技能的人。数据科学家Rinu Gour也说过一句很有哲理的话:如今是Python的世界,花时间学习Python编程语言将是你对未来最好的投资。接下来,风变编程就带你探寻这些大佬背后隐藏的深意。很多人觉得,Python语言似乎是“横空出世”,突然间就?

      • IEEE Spectrum 评估的最流行语言是 Python

        ​IEEE Spectrum 通过综合 CareerBuilder、GitHub、Google、Hacker News、IEEE、Reddit、Stack Overflow 和 Twitter 八个来源 ,分析了 55 种编程语言的流行度,公布了它的 2020 年度编程语言排行榜:

      • Python进入初中生学习课堂?风变编程助你从后浪中成功突围

        都知道现在Python这门编程语言很火,那它究竟火到什么程度?可能互联网上铺天盖地的Python学习贴不够直观,求职平台上Python相关工资水涨船高,也离我们普通人太远,但——Python被纳入基础教育体系呢?浙江省八年级将新增Python编程课程风变编程得到最新消息,在2020年9月开始的新学期中,浙江省三年级到九年级信息技术课将同步替换新教材,而其中最大的变化是,八年级将新增Python课程内容。同时,新高一信息技术编程语言由VB替?

      • 最新编程语言排名:Python超Java、JS保持领头羊

        Redmonk新一轮的编程语言排名出炉,从使用量上看,Python超越了Java跃居第二,JavaScript仍保持领头羊的位置。统计中对使用量的计算拉取的是Github和Stack OverFlow数据,尽管Python在过去六个

      • 职场提升新技能,风变编程Python让繁琐的工作自动化

        近年来,随着人工智能的飞速发展,作为人工智能第一编程语言的Python越来越热门,国家政策方面开始推广编程教育,不少企业在招聘条件中都列出了“具备Python技能”的字样。因此,很多比较有远见的职场人士都开始考虑是否要学点Python知识傍身,以备不时之需。Python——自动化办公的魔法钥匙在讲Python之前,我觉得我们需要先了解一下什么是自动化办公?自动化办公也称办公自动化(英语:Office Automation),简称OA,指的是应用?

      • 数字化场景应用平台加持,开课吧学员Python挑战赛秀出代码精彩

        企业在数字化转型过程中,如何应对数字化人才短缺成为了最大挑战。同时,很多企业还意识到在外部人才争夺战日益激烈的大背景下,仅仅靠引进外部人才来弥补企业人才缺口是远远不够的,还需构建自身数字化人才培养的体系,特别是要注重数字化应用人才的培养。同时,企业在数字化应用人才培养问题上,最重要的是具有明确的方向与目标,能够切合所处行业的客观情况和实际应用场景,进行有针对性的人才培养,才能保证培养的效果与投入产

      • 微信视频号怎么关闭弹幕 浮评弹幕怎么关闭取消

        在微信视频号中默认的会看到在视频中有弹幕,也就是浮动的评论,很多人对弹幕都很反感,想关闭这些弹幕不知道怎么操作,下面就来为大家详细的介绍一下关闭的方法。

      • 数字吉林整挺好 鲲鹏生态助力佳

        导语:吉林省得天独厚的生态和地理资源孕育了令人艳羡的黑土,而这片肥沃的黑土地上发生的产业演进史,正是我国经济发展从农业时代迈向数字化时代的一个缩影。黑土地之于粮食生产就像基础设施之于工业发展,可以说,没有哪个地区比亲历新中国70年产业发展代际沿革的吉林对基础设施建设的理解更通透。随着云计算、人工智能、大数据等新一代信息技术引领的新一轮产业革命的到来,为了抓住产业数字化转型的发展机遇,吉林省提出了旨在

      • 动效、弹幕、“盖楼”……微信终于“浪”起来了

        ​这几天无意间刷微信,忽然觉得微信的界面比以前增加了很多功能:“发现”页面中好像突然多了几个提示小红点;还没有完全开放入口的视频号也增加了 3 个模块和一个定位,而且在视频号点赞居然还有了桃心动效……

      • 说好要退役?RNG小虎直播称打完夏季赛再决定,现在状态挺好

        斗玩网原创:此前RNG战队的小虎在直播的时候称,如果输给LGD那么他就当场退役,而在那一天,RNG就真的以1:2不敌LGD战队输了比赛。于是有不少网友起哄,表示终于等来了小虎退役的日子,其中还不乏很多的RNG粉丝。不过事情经过两天之后,小虎直播时谈到了自己曾经立的FLAG,他表示先打完夏季赛再说吧,现在自己的状态正佳,还有机会带队冲击季后赛。

      • 弔是什么梗 弹幕中刷弔是什么意思

        最近在一些直播弹幕或者视频弹幕中出现了一个词“弔”,这个词的来源出处是哪里,在互联网中“弔”这个词具体有哪些意思呢,以下我们来看下这个词相关的介绍。

      • 微信更新!公众号视频有弹幕,撤回、删除不再同时出现

        ​近日,知晓君的小伙伴告诉我,微信 7.0.17 for Android 版开始内测。此次更新不像前几个版本有深色模式、支持修改微信号、拍一拍这样的重磅功能,但在小程序、图片搜索、界面优化上,都有一些小改变。

      • 微信公众号视频新增弹幕功能

        近日,微信7.0.17 for Android版开始内测。更新的功能包括小程序全面上线防沉迷系统以及公众号视频支持发弹幕等等。其中,公众号视频弹幕功能为部分公众号参与内测的新能力,公众号在上传视频时即可看到弹幕开关,群发视频即可使用弹幕功能。

      • 雷军B站第一支视频出炉:网友弹幕狂刷“Are You OK”

        7月30日消息,小米创始人、小米集团董事长兼CEO雷军在B站发布了第一支视频。在第一支视频中雷军表示,我正式成为B站的一位萌新,听说我在B站很有名,谢谢大家捧场,未来呢我会带大家逛逛我们的

      • 微信消息撤回删除按钮不再同时出现 公众号视频将有弹幕

        近日,微信7.0.17 for Android版开始内测。在该版本中,公众号视频支持发弹幕小功能。该功能为部分公众号参与内测的新能力,公众号在上传视频时即可看到弹幕开关,群发视频即可使用弹幕功能。值得一提的是,有弹幕功能的公众号在将视频插入图文消息中时,弹幕按钮消失。

      • V 神称已开始Eth 1到Eth 2的合并,OKEx Jay Hao谈以太坊2.0影响

        据链闻消息,以太坊创始人 Vitalik Buterin 在推特上转发了以太坊 2.0 开发人员 Danny Ryan 发布的推文并表示,关于「从 ETH1.0 向 ETH2.0」的合并工作已经开始进行。根据 Danny Ryan 发布的系列推文信息以及以太坊官方博客的最新更新,ETH1.0 与 ETH2.0 的合并工作取得了重要进展。在比特币减半完成之后,以太坊2.0被视为2020年最值得期待的事件,市场普遍看好。月初,OKEx CEO Jay Hao在做客白话区块链社群时曾断言:以太坊2.0的

      • V神称已开始Eth 1到Eth 2的合并,OKEx Jay Hao谈以太坊2.0影响

        据链闻消息,以太坊创始人 Vitalik Buterin 在推特上转发了以太坊 2.0 开发人员 Danny Ryan 发布的推文并表示,关于「从 ETH1.0 向 ETH2.0」的合并工作已经开始进行。根据 Danny Ryan 发布的系列推文信息以及以太坊官方博客的最新更新,ETH1.0 与 ETH2.0 的合并工作取得了重要进展。在比特币减半完成之后,以太坊2.0被视为2020年最值得期待的事件,市场普遍看好。月初,OKEx CEO Jay Hao在做客白话区块链社群时曾断言:以太坊2.0的

      • 微信更新!公众号视频内容新增弹幕功能,但有一个细节要注意!

        微信安卓版又双叒叕更新了,昨天,微信7.0.17 for Android版本开始内测。和往常一样,本次更新处总是写着“解决了一下已知问题”。

      • 微信安卓7.0.17正式版发布:视频弹幕、长按消息菜单新样式

        微信刚刚官方发布了安卓端7.0.17正式版本,新增视频弹幕,并升级了长按消息菜单的样式。新版微信中,视频号新增了“浮评”功能,可以在观看视频的同时看评论,也就是大家非常熟悉的

      • 参与评论
      文明上网理性发言,请遵守新闻评论服务协议
      • 热门标签