我们希望能够基于招聘网站的数据来分析当前数据分析师岗位的工资状况,具体实验步骤如下。
1.数据获取:
(1)确定可视化主题后,进行数据的爬取或者下载使用公开源数据。这里选择通过python爬取拉勾网获取数据。URL:https://www.lagou.com
(2)经过对网站的分析,由于拉勾网存在反爬机制,读取速度过快会导致ip失效,所以本次爬取通过selenium实现数据的爬取。
图10-75数据爬取
(3)累计爬取数据分析相关岗位3868条数据,涵盖十二个城市,覆盖十五个字段。
图10-76初始数据展示
2.数据清洗、整理:
所使用的的数据所呈现的内容为客观内容,故只需查看数据是否有异常、空白值。
(1)将数据保存在本地之后,利用python对源数据进行清洗和筛选,方便后续对数据进行可视化图表的呈现。
(2)每张图表的具体清洗步骤:
a.分别统计不同公司人数规模的数量,并转换为json格式。
图10-77不同公司人数规模的数量数据处理
图10-78不同公司人数规模的数量数据预处理结果
b.分别统计不同公司融资等级的数量,并转换为json格式。
图10-79不同公司融资等级的数量数据处理
图10-80不同公司融资等级的数量数据处理结果
c.不同学历对应的工资分布:首先借助excel新增一列平均工资数据((最低工资+最高工资)/2),再以学历为分组依据,对最低工资,最高工资,平均工资进行平均值计算。最后,获取控制台打印结果。
图10-81最低工资,最高工资,平均工资进行平均值计算
d.不同工作经验对应的工资分布:以工作经验为分组依据,对最低工资,最高工资,平均工资进行平均值计算。最后,获取控制台打印结果。
图10-82以工作经验为分组依据,对最低工资,最高工资,平均工资进行平均值计
e.相关职位统计
通过遍历,计算得出每个职位名称的数量,并且转化为json格式。
图10-83计算每个职位名称的数量
图10-84每个职位名称的数量
f.行业关键词统计
导入jieba库,通过jieba对行业关键词进行分割处理,分别统计各个关键词的数量
图10-85对行业关键词进行分割处理,分别统计各个关键词的数量
图10-86各个关键词的数量
g.各个热门地区工资分布情况
首先对同地平均工资进行分类,分布梯度为[0,10000,15000,20000,25000,30000,100000]。然后通过嵌套遍历的方式,获取对应的数据。
图10-87同地平均工资数据获取
3、数据可视化:
(1)公司人数规模情况
将进行处理后的json数据导入data当中,利用echarts模块生成对应图表。下图为部分代码。
图10-88生成公司规模图表
效果图:
图10-89公司规模可视化展示
(2)公司融资规模
将进行处理后的json数据导入data当中,利用echarts模块生成对应柱状图。下图为部分代码。
图10-90生成公司融资规模图表
所生成饼图:
图10-91公司融资规模可视化展示
(3)不同学历对应的工资分布.
将控制台中打印的数据赋值给data,借助echarts完成柱状图的制作。部分代码如下
图10-92绘制不同学历对应的工资分布图标
(4)不同经验对应的工资分布.
将控制台中打印的数据赋值给data,借助echarts完成柱状图的制作。部分代码如下
图10-94绘制不同经验对应的工资分布图表
所生成柱状图:
图10-95不同经验对应的工资分布可视化展示
(5)相关职位统计。
首先下载并引入对应的词云图包,再将进行处理后的json数据导入data当中,利用echarts模块生成对应词云图。下图为部分代码。
图10-96统计相关职位频次
(6)行业关键词统计。
在引入下载词云图包,将进行处理后的json数据导入data当中,利用echarts模块生成对应词云图。下图为部分代码。
图10-98行业关键词词频统计
(7)不同地区的工资分布情况。
通过echarts,采用堆叠图的形式,计算出每个数据的百分比,对展示内容进行格式化。部分代码如下。
图10-100绘制不同地区工资分布情况图表
所生成的堆叠图如下:
图10-101不同地区工资分布情况可视化展示
4、数据分析及总结:
(1)在数据分析行业当中,工资水平一般随学历的提高、工作经验的累加而提高。不过图中显示应届生的工资要高于或接近工作三年以下人群的工资,说明应届生身份也是数据分析行业当中一重要标识。
(2)在数据分析行业当中,提及最多的职称是数据分析师,其中游戏、建模、大数据,算法等细分方向,也是企业招聘的热点。
(3)通过观察行业关键词词云图,可以发现“服务“、”咨询“、”IT“,”产品“,”智能“,”技术“等关键词出现频率较高,说明数据分析行业与互联网服务,技术,产品等息息相关。
(4)通过堆叠图可以发现,在互联网热门城市当中,每个地区的工资分布均有各自特色。成都和西安地区工资达30k+的岗位占到百分之三十以上,说明该地区对高等数据分析人才需求旺盛。苏州地区工资20-25k的岗位数量达百分之四十五,说明该地区对中等数据分析人才需求旺盛。这些数据为数据分析师在选择工作地区时能提供一定帮助。

