Bubbles~blog

用爱发电

对网易云评论进行简单分析的二三事(上)

上周抒发了一下感慨,正巧周末有空来进行一下分析的实战,因为之前也写过爬取网易云评论量的爬虫,所以就想着把网易云的评论的详细情况分析一下,其实也就是比之前要多爬了几个字段

首先针对评论需要的有它们的评论者id号,评论id号,评论日期,赞数还有评论详情,不过要爬取这些字段还是要比我之前仅仅爬取总计评论量要麻烦不少,因为对于不同页数提交的参数的值也是要经过计算的,对应的解析方法我也是参考这里的回答https://www.zhihu.com/question/36081767

爬虫还是很简单的,可能需要考虑的还是如何绕过ip的封锁策略,之前想的是爬取晴天的所有评论,毕竟有两百多万,数据总量比较大,而且在网易云也比较有代表性,然而爬虫才刚爬了十几万评就被封ip了,似乎是爬的太快的缘故,不过说实话速度一降下来要爬完这么多评论确实要花很多时间,后来挂代理也没啥起色,还是日常被封,就有点烦

不过我翻取已经爬下来的这几十万数据时却发现了一个让我很震惊也觉得很有意思的情况,那就是这其中的很多评论竟然是在不断重复的,就是那么几十条评论在不断循环,并不是评论内容重复,而是这条评论重复,刚开始我还以为是我的爬虫出了问题,但是又检查不出来有什么问题,我又换了几首歌,情况还是一样,都是只有前面一部分内容是正常的,日期也在正常变动,然而到了大概第一万评左右就开始出现了循环的情况,日期也在此处定格,这就让我有点懵逼,于是我又把主意打到了网页端的网易云上,我尝试在网页上加载后面的评论,结果让我更加震惊

按照我之前的估算,一页是20条评论,那么应该大概500页左右会出现重复的内容,我去翻了翻晴天的评论,一看果不其然

然后后面就都是同样的东西刷屏。。。

继续往后翻,还是一样的情况

 

 

可以看到到了2000多页竟然tmd还是3月8号的评论,感觉就非常的搞笑,至于最后的部分倒是挺正常的,不过在9000多页一万多页也还是会有不断重复的情况,看了看似乎只有前一万条和后一万条评论是正常的状态,也就是说评论数过两万的几乎都会存在这种情况,我也试了很多歌曲差不多都是这种情况,这种模式确实让人很难以理解,我也换了浏览器甚至电脑来尝试,不过也是一样的结论,难道是服务器为了节省资源搞了这么一出还是最近处在特殊状态?表示很懵逼,跟网易云的客服反映也木有明确答复,似乎客服小姐姐管不了还是咋,不过这对于我的数据搜集确实是个很沉重的打击,真是让我愁白了头

不过东西都写好了总不能浪费,于是我暂且将数据源选定为评论量在20000左右的歌曲,还是挑的周董的歌曲,毕竟分析晴天的失败还是让我有点遗憾,选取的是她的睫毛这首歌,评论量刚好是20000左右,之间也还是有少部分重复,不过不多,去个重就当没啥影响好了,数据拿到以后我们先按时间线展开看看

可以看到开始两年的评论非常地少,毕竟网易云刚出来确实也没什么人用,每个月也就那么几条评论,不过到了15年中旬情况有了改观,每月的评论量稳定上了200,之后开始不断增长,不过相信大家也注意到了中间有一个月的评论量尤其的突出,在2016年10月突然增长到了2700,也让我很好奇那一个月发生了什么,不过大致翻了翻也没什么特别的事情,只是那个月有两场演唱会,但评论里并没有出现多少演唱会的字眼,于是我决定从另一角度进行分析

 

可以看到其他月份的评论量情况跟那个月来这留下脚印的人数大致都是吻合的,而2016年10月那个月的评论人数也并没有突变,甚至也并不是最多的,但是评论量却这么恐怖,可以肯定那个月肯定是有人来这刷评论了,这种情况其实也挺常见的,之前翻爬下来的评论集的时候就发现有人在七里香的评论里硬是刷评把龙族小说的好几章搬了上去,也是醉了

接下来我们看看这个图表

 

从这个表里我们可以看出哪个阶段的评论得到的评价最高,显然热评主要集中在了15年,这也跟网易云的机制不无关系,上了热评的赞越来越多,下面的想要上去很多时候还是挺困难的,不过16年的评论质量也都还不错,10月的评论总数这么多,不过有营养的也并不多,按比例算就更低了,到了17年,虽然评论数每个月都在迅速增长,然而每月评论的获赞数却一直很低,我感觉这也反应了如今网易云评论区越来越水的现状,哪怕热评很多也是各种复制黏贴,到处都有,这也算是人多带来的各种问题吧

 

接下来我们继续来看有关赞数的分析

可以看到接近一半的评论都是没有得到赞的可怜孩子,接下来四分之一的评论都拿到了一个赞,接下来不断递减,一直到9个赞的评论都还算常见的,之后的那么多相对前面这些都算得上是热评了

接下来我们也不能忘了我们这次爬取的主体,那就是评论的内容,所以我拿它们做了个词云,用的是python的wordcloud,当然网上也有很多在线的,不过处理性能貌似有限,而且有些还要钱

首先我把所有评论总集做一个词云

emmm,最大的是周杰伦这当然没有问题,睫毛作为歌名的一部分当然也没有问题,懵逼的是怎么有这么多哈哈,哈哈哈,哈哈哈哈的。。。

不过我去评论里搜了搜发现还真是有挺多哈哈的,看来大家都挺开心的

然后我又把50赞以上的评论做了一个词云

这下倒是正常了不少,起码没那么多哈哈了,不过主体部分其实还是差不多的

不过到这里我们的分析其实也只进行了一半,针对来这里评论的用户我们也可以做一个简单的分析,考虑图片太多我这破服务器加载可能比较慢,还是分成两部分来写好了,正好数据的搜集也有点问题