数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
图表类型选择

3.5.1柱状图

柱状图(barchart),是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。柱状图亦可横向排列,或用多维方式表达。

与柱状图相似的还有直方图,不过相比于柱状图而言直方图更加复杂,因为直方图可以同时描述两个不同的变量。除了这两种图表此外,功能相似的还有扇形统计图和折线统计图。

柱状图主要用于数据的统计与分析,有2D3D2种展示效果。柱状图采用长方形的形状和颜色编码数据的属性。柱状图的每根直柱内部也可以用像素图方式编码,称为堆叠图。柱状图适用于二维数据集,但只有一个维度需要比较,柱状图利用柱子的高度,反应数据的差异。柱状图的局限在于只适用于中小规模的数据集。图4-142023年各经济带的数字经济发展情况。可以看出,长三角的数字经济总量居全国城市群首位,其中产业数字化占比超70%,发展势头迅猛。

 

4-14柱状图

3.5.2折线图

折线图是排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。

在折线图中,水平轴通常表示类别数据,垂直轴表示所有值数据。

当结果为均匀分布的数值且分类标签为文本(例如年度、季度、月度)时,应该使用折线图。当只有一个类别时,也可以考虑使用类别图;当包含多个不同的类别时,通常适合使用折线图,因为折线图可以对多个数据进行对比。如果分类标签为均匀分布的数值型(例如年份),也可以使用折线图,但是当数值标签超过了十个,此时应该考虑使用散点图。图4-152005-2025年中国数字经济规模的发展情况,由图可以看出从2005年至今,中国数字经济规模正在不断增长,并预计2021年后将迅速上升,增势显著。

 

4-152005-2025年中国数字经济规模的发展情况折线图

3.5.3饼图

饼图英文学名为SectorGraph,又名PieGraph。常用于统计学模块。2D饼图为圆形,手画时,常用圆规作图。

仅排列在工作表的一列或一行中的数据可以绘制到饼图中。饼图显示一个数据系列(数据系列:在图表中绘制的相关数据点,这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼图只有一个数据系列。)中各项的大小与各项总和的比例。饼图中的数据点(数据点:在图表中绘制的单个值,这些值由条形、柱形、折线、饼图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。)显示为整个饼图的百分比。图4-162022年中国独角兽企业所属的行业分布情况,2022年我国独角兽企业共312家,主要分布在健康科技、人工智能、电子商务、半导体等科技领域。

                                            4-162022年中国独角兽企业所属的行业分布饼图

3.5.4散点图

散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。

散点图分为ArcGIS散点图、散点图矩阵、三维散点图。

用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。图4-172022年我国第一产业的数字经济渗透率散点图,从趋势中可以看出近年来中国数字经济在第一产业中的渗透率逐渐提高,2021年之后增速逐渐放缓,可以预见中国未来第一产业将逐渐实现数字化发展。

 

4-172022年中国第一产业的数字经济渗透率散点图

3.5.5热力图

热力图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。热力图可以显示不可点击区域发生的事情。热力图同时还能告诉你,页面的哪些部分吸引了大多数访客的注意。这对那些对web分析数据没有什么经验的站长或管理员非常有用。图4-182020年我国湖北省电子信息制造企业区域分布热力图,通过热力图可以看到,武汉、黄冈、孝感、襄阳、荆门、宜昌是企业聚集度比较高的区域。武汉东南部地区受影响显著,是电子信息产业主要聚集区域,受疫情影响,区域内劳动密集型的电子零组件工厂难以在短期内全面且有效恢复生产。

 

4-182020年湖北省电子信息制造企业区域分布热力图

3.5.6雷达图

雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图,不规则多边形,极坐标图或Kiviat图。它相当于平行坐标图,轴径向排列。

雷达图主要应用于企业经营状况--收益性、生产性、流动性、安全性和成长性的评价。上述指标的分布组合在一起非常象雷达的形状,因此而得名。图4-192022年北上广深杭五地大数据产业各指标的得分情况,可以看出北京在各项指标上表现突出,北上广深四个一线城市在各项指标的得分都比较均衡。杭州在投资热度方面明显突出,但是在产业创新能力及产业政策及产业环境等方面存在短板,和一线城市相比,在政策制定、机构设置、战略布局等方面依旧存在着较大差距。

 

4-192022年北上广深杭五地大数据产业各指标得分雷达图

3.5.7地图

地图是依据一定的绘制法则,使用制图方法,通过制图综合在一定的载体上,表达地球(或其他天体)上各种事物的空间分布、联系及时间中的发展变化状态绘制的图形。

地图是按照一定法则,有选择地以二维(2D)或多维形式(3D)与手段在平面或球面上表示地球(Earth)(或其它星球)若干现象的图形或图像,它具有严格的数学基础、符号系统、文字注记,并能用地图概括原则,科学地反映出自然和社会经济现象的分布特征及其相互关系。

现阶段地图的定义是:以一定的数学(Math)法则(即模式化)、符号化、抽象化反映客观实际的形象符号模型或者称为图形数学模型。地图是根据一定的数学法则,将地球(或其他星体)上的自然和人文现象,使用地图语言,通过制图综合,缩小反映在平面上,反映各种现象的空间分布、组合、联系、数量和质量特征及其在时间中的发展变化。图4-20为深圳高新技术产业园中的数字产业集群分布情况,可以发现其分布主要集中在宝安园区、南山园区、龙岗园区、坪山园区,且集群多以人工智能、互联网、生物医药等行业为主。

 

4-20深圳高新技术产业园中的数字产业集群分布地图

3.5.8词云图

"词云"这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(RichGordon)提出。戈登做过编辑、记者,曾担任迈阿密先驱报(MiamiHerald)新媒体版的主任。他一直很关注网络内容发布的最新形式一即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。

"词云"就是通过形成"关键词云层""关键词渲染",对网络文本中出现频率较高的"关键词"的视觉上的突出。使浏览网页者只要一眼扫过文本就可以领略文本的主旨。如图4-21是对习近平总书记在中国共产党第二十次全国代表大会上的报告内容的可视化呈现。对于读者来说,通过观看这张图就能够大致了解报告的主要内容,不用阅读全文就能知道报告中所传达的核心思想。图中一国两制社会主义现代化最为醒目,也与当下的时事政治相吻合,反映了国家近年来主要的目标与方向。

 

4-21二十大报告的词云图

3.5.9仪表盘

仪表盘(instrumentpanel),用于安装仪表及有关装置的刚性平板或结构件。按型式分有屏式仪表盘、框架式仪表盘、通道式仪表盘、柜式仪表盘。

仪表盘可带外照明,亦可附接控制台,有各种形式及规格,可按需要安装各种仪表,亦可按需要将各种仪表盘组合成一个整体。图4-22为广州市黄浦区的经济运营分析系统,从该仪表盘中我们可以了解到工业总产值、行业分析、产值预测、企业预警等多个维度的信息,帮助管理者更好地做出相应的决策。

 

4-22广州市黄浦区的经济运营分析系统仪表盘