数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
数据分析师招聘可视化分析

我们希望能够基于招聘网站的数据来分析当前数据分析师岗位的工资状况,具体实验步骤如下。

1.数据获取:

1)确定可视化主题后,进行数据的爬取或者下载使用公开源数据。这里选择通过python爬取拉勾网获取数据。URLhttps://www.lagou.com

2)经过对网站的分析,由于拉勾网存在反爬机制,读取速度过快会导致ip失效,所以本次爬取通过selenium实现数据的爬取。

 

10-75数据爬取

3)累计爬取数据分析相关岗位3868条数据,涵盖十二个城市,覆盖十五个字段。

 

 

 

10-76初始数据展示

2.数据清洗、整理:

所使用的的数据所呈现的内容为客观内容,故只需查看数据是否有异常、空白值。

1)将数据保存在本地之后,利用python对源数据进行清洗和筛选,方便后续对数据进行可视化图表的呈现。

2)每张图表的具体清洗步骤:

a.分别统计不同公司人数规模的数量,并转换为json格式。

 

10-77不同公司人数规模的数量数据处理

 

10-78不同公司人数规模的数量数据预处理结果

b.分别统计不同公司融资等级的数量,并转换为json格式。

 

10-79不同公司融资等级的数量数据处理

 

10-80不同公司融资等级的数量数据处理结果

c.不同学历对应的工资分布:首先借助excel新增一列平均工资数据((最低工资+最高工资)/2),再以学历为分组依据,对最低工资,最高工资,平均工资进行平均值计算。最后,获取控制台打印结果。

 

 

10-81最低工资,最高工资,平均工资进行平均值计算

d.不同工作经验对应的工资分布:以工作经验为分组依据,对最低工资,最高工资,平均工资进行平均值计算。最后,获取控制台打印结果。

 

 

10-82以工作经验为分组依据,对最低工资,最高工资,平均工资进行平均值计

e.相关职位统计

通过遍历,计算得出每个职位名称的数量,并且转化为json格式。

 

10-83计算每个职位名称的数量

 

10-84每个职位名称的数量

f.行业关键词统计

导入jieba库,通过jieba对行业关键词进行分割处理,分别统计各个关键词的数量

 

10-85对行业关键词进行分割处理,分别统计各个关键词的数量

 

10-86各个关键词的数量

g.各个热门地区工资分布情况

首先对同地平均工资进行分类,分布梯度为[0,10000,15000,20000,25000,30000,100000]。然后通过嵌套遍历的方式,获取对应的数据。

 

 

10-87同地平均工资数据获取

3、数据可视化:

(1)公司人数规模情况

将进行处理后的json数据导入data当中,利用echarts模块生成对应图表。下图为部分代码。

 

10-88生成公司规模图表

效果图:

 

10-89公司规模可视化展示

(2)公司融资规模

将进行处理后的json数据导入data当中,利用echarts模块生成对应柱状图。下图为部分代码。

 

 

10-90生成公司融资规模图表

所生成饼图:

 

10-91公司融资规模可视化展示

(3)不同学历对应的工资分布.

将控制台中打印的数据赋值给data,借助echarts完成柱状图的制作。部分代码如下

 

10-92绘制不同学历对应的工资分布图标


(4)不同经验对应的工资分布.

将控制台中打印的数据赋值给data,借助echarts完成柱状图的制作。部分代码如下

 

10-94绘制不同经验对应的工资分布图表

所生成柱状图:

 

10-95不同经验对应的工资分布可视化展示

(5)相关职位统计。

首先下载并引入对应的词云图包,再将进行处理后的json数据导入data当中,利用echarts模块生成对应词云图。下图为部分代码。

 

10-96统计相关职位频次


(6)行业关键词统计。

在引入下载词云图包,将进行处理后的json数据导入data当中,利用echarts模块生成对应词云图。下图为部分代码。

 

10-98行业关键词词频统计

(7)不同地区的工资分布情况。

通过echarts,采用堆叠图的形式,计算出每个数据的百分比,对展示内容进行格式化。部分代码如下。

 

10-100绘制不同地区工资分布情况图表

所生成的堆叠图如下:

 

10-101不同地区工资分布情况可视化展示

4、数据分析及总结:

(1)在数据分析行业当中,工资水平一般随学历的提高、工作经验的累加而提高。不过图中显示应届生的工资要高于或接近工作三年以下人群的工资,说明应届生身份也是数据分析行业当中一重要标识。

(2)在数据分析行业当中,提及最多的职称是数据分析师,其中游戏、建模、大数据,算法等细分方向,也是企业招聘的热点。

(3)通过观察行业关键词词云图,可以发现“服务“、”咨询“、”IT“,”产品“,”智能“,”技术“等关键词出现频率较高,说明数据分析行业与互联网服务,技术,产品等息息相关。

(4)通过堆叠图可以发现,在互联网热门城市当中,每个地区的工资分布均有各自特色。成都和西安地区工资达30k+的岗位占到百分之三十以上,说明该地区对高等数据分析人才需求旺盛。苏州地区工资20-25k的岗位数量达百分之四十五,说明该地区对中等数据分析人才需求旺盛。这些数据为数据分析师在选择工作地区时能提供一定帮助。