数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
图表元素的增强控制

图表由若干个通常被称为图表元素的部件组成,入门级用户经常需要在这些图表元素的名称及图表实体之间建立对应关系,熟悉其名称之后,还需要花时间寻找和适应每个图表元素的操作方式,了解每个图表元素所提供的设置选项,以及进一步实现这些选项在图表中的实体化。事实上,即便是已经跨过上述阶段的有经验的分析师,在处理Excel图表时也会不时遭遇挫折。和入门级用户不同,进阶级用户的困扰通常来自于如何让Excel内置的图表元素按自己期望的方式呈现,以及如何创造Excel未提供的图表元素。在专业的研报图表中,对图表元素施加进一步的控制或在现有图表中添加各种自定义图表元素十分常见,且常被用于改进图表外观、吸引读者注意及强化观点等多种目的。

3.3.1事件注释和数据点标记

文本标签是最常见的图表元素之一。本节通过一个实例介绍文本标签的标记应用。

实例:布伦特原油价格走势本例数据为2014—2016年的布伦特原油价格,在此期间市场波动剧烈,我们要在图表中使用文本标签标记一些重要事件和言论,展示在高波动的市场环境下,原油价格大幅偏离常态的过程。在基础图表方面,本例首先生成一张面积图,然后使用Ctrl+CCtrl+V组合键的方法复制数据系列,因此图表中将有两个相同名称的系列,二者重叠显示。将其中一个系列的图表类型改为折线图,二者相结合产生面积和边缘线条的组合,以增强价格波动的视觉效果。完成以上操作之后,再根据需要进行适当的格式化,效果如图4-4所示。

 

4-4面积图+折线图

4-4面积图+折线图:布伦特原油价格走势格式化要点本图格式化的要点包括:调整纵轴刻度边界,修改其最小值和最大值分别为20120,以放大面积图区域;将横轴日期的主要间隔单位设置为12个月,同时修改日期格式为仅显示年份(代码为“yyyy”),以简化坐标轴标签;将面积填充和线条设置为相同颜色,并设置面积填充色的透明度为80%。和前面的例子类似,本例中自定义文本标签的制作同样包括组织XY辅助数据系列、粘贴数据系列、修改图表类型及添加标签4个步骤。

1)步骤1

准备XY辅助系列为了在事件发生日添加文本标签,首先需要建立能在这些日期所在位置产生数据点的XY辅助数据系列。本例的基础图表为面积图,其横轴分类为日期。向此类图表中添加XY辅助数据系列时,应确保X符合日期格式,并处于原图的绘图期间之内。因此,X就是事件的发生日期。同时,由于本例目标是将事件注释显示于当天的价格之上,因此辅助数据系列的Y可设为事件发生日的原油价格,使用工作表函数vlookup在原图的绘图数据中搜索事件发生日即可获得。XY辅助数据系列如图4-5所示,E列中的文本为事件信息,即标签中显示的内容。

 

4-5准备XY辅助数据系列

2)步骤2

粘贴数据系列第2步是将XY辅助数据系列加入原图表。选中图4-5中的C2D8区域,按Ctrl+C组合键复制,然后激活图表,打开选择性粘贴对话框。本例中辅助数据采用纵向组织,因此需设置添加的单元格为新建系列、数值(Y)轴在。此外,复制的数据中包含了X系列,所以还需勾选首列中的类别(X标签)复选框,如图4-6所示。

 

4-6粘贴数据系列

3)步骤3

更改系列图表类型由于基础图表的系列图表类型和XY辅助系列的图表类型不同,因此本例在完成步骤2的操作后需要更改系列图表类型。在执行粘贴操作之后,Excel会对新加入的系列沿用之前系列的图表类型。选中任意系列,在右击后弹出的快捷菜单中选择修改系列图表类型选项,打开更改图表类型对话框,定位至新生成的系列(通常位于列表的最后),在其所在行右侧的图表类型下拉列表中,将该系列的图表类型由面积图改为散点图,如图4-7所示。完成此操作后,Excel会自动勾选右侧的次坐标轴复选框。本例中辅助数据的x坐标是基于原有系列分类的特点构造的,和原系列可共同存在于主坐标轴上,因此无须启用次坐标轴,因此单击次坐标轴复选框,取消其选中状态。

 

4-7修改系列图表类型

4)步骤4

添加标签最后一步是为辅助系列添加事件注释。单击辅助系列,在右击后弹出的快捷菜单中选择添加数据标签选项,图表将在新系列的每个数据点右侧自动创建一个包含y值的数据标签,而本例希望在标签中显示事件信息。为此,选中新生成的数据标签,打开设置数据标签格式对话框,选择单元格中的值复选框,然后引用事件所在的E2E8区域,在标签包括选项区下取消选中“Y复选框。由于事件的位置各不相同,本例中文本标签不适合对齐,因此需手工将其逐项调整至理想位置。原则上以不重叠、不影响价格走势线条且遵循原有时间线顺序为宜。另外,为了突出显示事件发生当日的原油价格,可对辅助系列的数据点进行放大格式化。最终效果如图4-8所示。

 

4-8布伦特原油价格走势图的事件注释

3.3.2独立存在的刻度线

刻度线标记(以下简称为刻度线)是图表中垂直显示于坐标轴之上并将其等分的细线,与坐标轴的主要和次要间隔单位相对应,刻度线也有主要类型和次要类型两种。在Excel图表中,对刻度线标记的显示有4种选项:内部、外部、交叉及不显示,均与坐标轴的基线相关。实际上,刻度线完全依赖于坐标轴,取消或隐藏(通过线条颜色来设置)坐标轴都会导致刻度线消失

实例:GDP增长率vs.股市年化回报率(2000—2016年)本例数据为2000—2016年部分成熟市场和新兴市场的GDP增长率和股市年化回报率。图4-9所示的散点图将数据点分隔成四个区域,右上角代表高增长、高回报区域,大多为新兴市场;左下角代表低增长、低回报区域,以成熟经济体为主。显然,在类似图表中添加横向网格线和纵轴会破坏上述区域的分隔效果,因此应该将网格线和纵坐标轴线条删除或做隐形处理。

 

4-9GDP增长率vs股市年化回报率(2000—2016年)

取消坐标轴线条会导致刻度线不可见。为了添加指示数值的刻度线,本节介绍两种实现方法。第一种方法无须使用辅助数据,直接使用自定义数据格式。其基本步骤是单击图表的纵轴,打开设置坐标轴格式对话框,在坐标轴选项选项下,展开数字分组,在格式代码文本框内输入“0"%-"”,最后单击添加按钮即可。该代码将在数字后添加“%”及一个“-”符号。设置坐标轴格式对话框和设置后的效果如图4-10所示。

 

4-10使用自定义格式添加刻度线图表中的自定义数字格式

Excel图表中凡是涉及数字格式设置的图表元素,如数值轴、数据标签等,都可使用自定义格式,其规则和单元格的规则相同。格式代码的基本结构有:正数格式、负数格式、零值格式、文本格式。有关自定义格式的详细介绍和实例,请参考相关书籍。第二种方法是使用辅助数据和误差线(需启用误差线)。和创建自定义文本标签类似,此操作也需3个或4个步骤,其中前2个或前3个步骤相同,分别是构建辅助系列、粘贴数据系列及修改图表类型(视情况而定)。不同之处在于,本例要创建的图表元素为线条而非标签,因此最后一步操作为启用误差线而不是添加标签。具体操作步骤如下。

1)步骤1

准备XY辅助系列为了在垂直方向的左侧生成数据点,首先需构造XY辅助系列。显然,此位置的X数据被统一设置为0Y数据则为纵轴刻度标签对应的值,辅助数据如图4-11中的E2F8区域所示。

2)步骤2

粘贴数据系列选中辅助数据后按Ctrl+C组合键复制,打开选择性粘贴对话框。本例的辅助数据采用纵向组织,因此需设置添加的单元格为新建系列、数值(Y)轴在。此外,复制的数据中包含了X系列,所以还需勾选首列为分类X复选框,如图4-11所示。

 

4-11粘贴XY辅助系列

因为基础图表为XY散点图,所以本例无须执行修改图表类型的操作。选中图表中的辅助系列,通过菜单或快捷图标添加误差线。Excel会自动同时生成x轴和y轴方向的误差线,本例仅需显示横向折线,因此选中垂直(Y方向)误差线后按Delete键删除,然后选择水平方向(X方向)误差线,进入设置格式对话框。选择误差线默认生成的误差线常常太小难以用鼠标选中,这种情况下,可选定任意图表元素,进入对应元素的格式设置对话框,而后打开副标题“××选项的下拉列表,即可选择目标系列的误差线。

3)步骤3

对给定方向的误差线,格式的设置主要围绕正负方向和误差量进行。选择步骤2添加的垂直误差线(如图4-12所示),打开格式设置对话框。在方向选项下选择正偏差代表误差线从指定位置向右侧延伸,将末端样式设为无线端,在误差量选项下设定每个辅助数据点的误差线长度相同,为固定值0.2。最后,设置辅助数据点的目的是为了提供位置支持,需将其做隐形处理,最终效果如图4-13所示。

 

4-12设置误差线

 

4-13最终效果图:GDP增长率vs.股市年化回报率(2000—2016年)

3.3.3不等距的网格线

网格线是显示在图表绘图区域内的辅助参考线,按方向可分为水平网格线和垂直网格线两种。默认情况下,网格线和坐标轴上的刻度线相连。体现坐标轴主要间隔单位的刻度线和主要网格线相连,体现坐标轴次要间隔的刻度线和次要网格线相连。网格线的主要用途是协助对数据的查询、增强数据点的对比效果,在某些情况下还可用于产生区域分隔的视觉效果。和刻度线类似,常规网格线的主要限制是只能按设定的间隔单位等距显示,而某些特定类型的金融图表则更适合使用不等距的网格线。

3.3.4数值参考线和分割线

辅助线是研报图表中最常见的元素之一。尽管通过插入形状(画线)的方法可在图表中添加各种线条,但该方法的问题是,插入的线条为外部对象,而非图表元素,因此其位置未必精确并且无法跟随图表大小和位置的变动而自动变化。本节介绍的是使用数据方法在图表中创建各类线条,这些线条的生成方法是制作专业研报图表必备的技能。

按用途划分,辅助线大致分为以下三大类。

1.指向特定数值水平的参考线(在横轴为分类轴的图表中,通常表现为横向线条),用于向读者传达特定水平的数值参考信息,如平均值、标准差等。

2.指示分类点的线条(在横轴为分类轴的图表中,通常表现为纵向线条),这一类辅助线通常用于强调某一个特定日期或分类、将时间轴划分为多个阶段、把文本分类划分成多个组别以示区别等。相比较而言,此类线条的数值意义稍弱。

3.指示XY数量关系的线条,此类辅助线一般在XY图表中使用,用于指示特定的XY数量关系(斜率)、回归趋势线等,也可起到分隔不同数量关系区域的作用,在图表中多表现为斜线。

3.3.5阴影背景

阴影背景是指为图表绘图区位于特定区间的数据点添加颜色背景,能与其他未处理的区域形成反差,吸引读者的特别关注。阴影背景被广泛应用于研报图表中,在日期分类轴图表中的使用相对更加普遍。

3.3.6其他面积元素

除上一节介绍的阴影背景外,图表中还经常用到各类面积元素。从外观上看,这些元素一般在图表中展现为用颜色填充的面积区域,按其形状大致可分为矩形和非矩形两大类。矩形面积元素的应用一般体现在散点图中。在由人均收入(美元)和债务—GDP比率构成的四个象限内,第一象限和第二象限的矩形使用了颜色填充,通过颜色差异产生区域分割的效果,以强调两个区域所代表的不同数据信息。此外,四象限图表通常在平均值处进行横纵向分割,便于读者快速发现在x轴和/y轴方向上偏离平均值的数据点。

非矩形面积元素的应用一般体现在散点图和堆积面积图之中。例如,悬空的面积图可用于展示数据的上下界区间。此类图表在Excel中很容易通过堆积面积图实现,只需将数据下界视为底部面积系列,然后将上下界之差作为堆积系列即可。