Bubbles~blog

用爱发电

对网易云评论进行分析的二三事(下)

现在我们接着之前的思路继续往下分析,之前我的爬取评论的爬虫里有爬取评论用户的id,所以我也准备对所有评论用户的数据做一个简单爬取,这个爬虫还是非常简单的,直接爬取用户页面做一个正则选取就行了,需要注意的就是用户年龄的部分页面直接返回的时间戳要除一千再使用

在这我选取的是注册时间,用户所在地,年龄,累计听歌数,不过用户所在地和年龄都有很多人并木有填,特别是年龄,几乎一半都是空的,还有一些用户也可能是注销了还是咋会找不到用户界面,注意处理这些错误即可

首先我们来看歌迷朋友们在各省的分布情况

可以看见还是祖国的中东部地区的歌迷朋友们比较多,大概也跟我国的人口分布有关,颜色最深的应该就是广东,江苏,四川这些地方了,感觉这里也是演唱会开得比较多的地方

 

看看按城市的分布情况就会发现更直观了,不过其中也有很多比较怪的地名,比如外国的或是一些县之类的就没有去照顾了,影响不大

然后我们来看看我也比较关心的年龄分布情况

emmm,没想到还有一部分婴幼儿,感觉年龄是不是乱写的,不过这部分我们就不去考虑了,把目光集中到峰值部分,可以看出来粉丝的主力军还是90后,这倒是有点出乎我的意料,我还以为应该是85后更占据优势,不过也可能是这部分群体有很多没有填写年龄以及他们中很多人可能并没有在听歌时留下评论的想法

这里看到的是我拿用户的累计听歌数量做出的统计,将累计听歌数与用户数做了个平均,可以看看哪个省比较爱听歌,颜色较深的还是集中在中东部地区,不过这次东北地区的表现要好了不少,其实这个结果还是比较水的,毕竟样本数太少,还是不太具有代表性,有几个用户少的地区出了个听得特多的就把均值拉上来了

同样的我们也可以看看按城市的分布情况

这样可以看出新疆那边确实出了一个听歌量特别高的样本,一下拉高了地区平均水平,其它的感觉还是差不多的

最后我们再来看看用户进入云村时间的分布情况

可以看到用户的集中涌入时间还是集中在16年,说实话我也是这一年进入的云村,不过17年的新增用户也挺多的网易云火起来也就是这两年的事情,想想也有点唏嘘

至此这次简单的数据分析实战就告一段落了,说实话其实还有很多点可以去挖掘,比如针对用户的情况还可以分析用户的关注数量,粉丝数量,创建的歌单数量等等,其实深入进去你会发现这是一件很好玩的东西,可以感受到数据的魅力所在,不过这次对我来说最大的遗憾还是数据集的缺失,没有爬到真正想要的数据,希望以后还有机会回来继续这一未竟的事业吧