Bubbles~blog

用爱发电

关于数据分析,随便写写

博客也有很长时间没有更新了,想想最近也不知道干了啥,看了很多乱七八糟的东西,机器学习也感觉碰到了瓶颈,不过想了想还是写写最近一些数据分析的东西,之前一直跟机器学习结合起来搞的,确实是个挺有意思的东西,最近主要是看了一些可视化的玩法。

个人感觉搞数据分析还是有一定门槛的,首先你得对基本的统计方法有一定了解,给个图表起码也得知道那些线是干嘛的,说实话我这种半吊子业余玩家也没系统地看过,后面找时间把统计学习方法看看,还有就是也要善于利用工具,python,R,甚至matlab都是不错的分析工具,不过真要精通还是需要长时间的练习,目前主要使用的还是python,毕竟对机器学习的支持比较好,pandas库性能也不错,至于在可视化上的表现,之前也主要是用matplotlib和基于它的seaborn,做一个简单的小图表还是挺简单快捷的,但是做复杂一点的说实话还是比较麻烦的,不过自由度还是很高的,当然前提是你够牛b

不过最近尝试了一下tableau,确实挺让人惊艳的,简单的操作就能做出很漂亮的可视化图表,主要人家的智能化确实做得不错

这里是它的官网,Tableau,对于中国的开发者还是很友好的,不过这是个收费软件,而且还挺贵,不过倒是有学生账户可以申请免费体验,不过认证感觉有点麻烦,还要拍学生证的照片上传,另一种方式就是先使用它的14天免费试用,然后在试用期内使用时间驻留器来获得长久的体验,我也是用的这种方法,而且在官网上也有配套的教学视频,而且还有中文版的,体验还是很不错的

tableau有它特有的工作簿文件类型,可以很方便地展现你的可视化成果,在它的官网上有很多的出色的作品可供查看与下载,没事在上面翻翻也挺有意思的,如果这些示例满足不了你的话可以来这里看看
https://public.tableau.com/zh-cn/s/gallery
在这会有官方挑选出的来自全球的tableau爱好者上传的精彩作品,这里的作品内容往往比较炫酷,有些感觉都可以被称为是艺术品了,可以涨涨姿势

接下来再来扯扯数据集的搜集,之前玩机器学习的时候会在kaggle上转转看看有什么好的datasets,其实主要还是为了看看大神的分析过程和思路,不过最近开始关注一些其他的方式

首先最权威的当然是国家统计局的相关数据了,基本上这种国家数据库都是类似于data.gov的域名,最牛b的当然就是美国的data.gov了,中国的域名则是data.stats.gov.cn,这里的数据一般而言涵盖了国家的经济人口等各种方方面面,可以看到我们国家这么多年的一个发展历程

比如说我们来看看我国近年来的人口年龄结构和抚养比的变化

网站也自带了可视化的工具,不过效果不是很好

接下来我们不妨尝试使用tableau来进行一个简单的可视化分析

 

 

 

比起统计局网站的可视化结果却是漂亮了不少,从图中我们也可以清晰地看到我国的老龄化程度在不断加深,不过青少年的层次产比在下降过后在近年又开始了一定程度的回升,关于这部分我们部分来看看在20年跨度下的情况,表现会更加直观

 

 

另外这里抚养比可以直观理解为每100名劳动人口需要负担多少老人或者儿童,感觉这一系列的变化跟国家的政策也是挺有关的

关于很多专业和非专业的数据获取渠道这里也有一个github大神整理的合集

https://github.com/caesar0301/awesome-public-datasets

里面资源还是非常多而全面的,虽然目前对于我而言利用起来还有难度

接下来我们再来看看一些有意思的数据渠道

首先是各种指数的平台,比如百度指数阿里指数微博指数微博电视指数

猫眼票房数据

还有微信小程序里的微信指数,这些数据平台可以让我们了解我们生活中的方方面面,从舆论动态,娱乐风向,时尚品味等各方面来进行分析,虽然在某些方面数据的真实性可能全靠公司的求生欲,不过我们就不考虑这些了,而且这些平台的可视化都还做的不错,数据体现上很直观

 

此外,还有像这个世界进出口贸易数据交互图,可以直观地看到世界各国家之间的贸易往来数据,视图做的挺不错,没事看看还是挺有意思的

再有这个全球主流移动公司营收及运营实时数据,可以很直观地看到全球人民有多能买加多能聊

还有现在牵扯着众人视线的比特币的情况比特币数据

类似的数据平台有很多很多,我也只是随便挑了几个,看着这些各种各样的数据的展现感觉其实还是挺奇妙的,你既能见证着历史也能预见着未来,仿佛你可以超然于物外俯视着数据的一切,这大概也是数据分析的魅力所在,前面讲的这些还都只是数据的表象,对于数据的深层次的关系的挖掘当然不是只把数据做个可视化分析那么简单,现在比较火的当然还是各种机器学习的算法,比较有趣的像是挖掘出啤酒与尿布关系的apriori算法,还有性能优异的各种树型算法,这学期正好也开了数据挖掘课程,希望还是能学到一点有用的东西

 

关于数据分析可能还是当成一个业余的爱好来玩吧,这篇文写的也是比较乱而咋,后面有时间可能会看看几本书啥的,另外tableau确实是个很实用的工具