3.1理解图表
统计图表(图4-1)作为基本的可视化元素现在仍被广泛使用,它是最早的数据可视化形式之一。在很多复杂庞大的可视化系统中,统计图表更是作为其基本的组成元素而必不可少。本节将介绍一些基本图表及其属性和不同图表的适用场景。通过这样的实例介绍,希望读者能对可视化设计所遵循的准则有所认识和了解。
图4-1统计图表分类
3.1.1图表的力量
一段信息以什么方式传递,才能让人更容易接受?答案是,图表。同样的信息,用图表表示就能够起到其他表现形式达不到的效果,这就是图表的力量。
3.1.2Where:坐标轴平面
常规图表需要在由两个或更多坐标轴构成的平面空间上展现(常规图表不包含饼图、热力图等不需要坐标轴的图表类型)。坐标轴平面通常由横坐标轴(以下简称“横轴”)和纵坐标轴(以下简称“纵轴”)组成。除极少数例外的情况外,数值一般体现于纵轴刻度之上,即所谓的数值轴。分类信息(日期或公司名、指标名、年份等文本标签)体现在横轴上,即所谓的分类轴。坐标轴提供了关键的位置信息。数值的位置反映数量大小,分类位置则代表数据的类别标签。因此,坐标轴是图表的生存平台,离开了坐标轴,图表也就完全失去了意义。
3.1.3What:图表的视觉机制
图形对象和视觉属性图表使用各类图形对象表达数值数据。常见的图形对象包括点、线、柱(条)形、面积等。某些非常规图表则使用颜色、角度等表达数据。在大多数可视化软件中,图表类型及其结构变化大多由上述图形对象决定。例如,柱形图和线图的区分主要在于二者分别使用柱形和线条展现数据,其他方面并无差异。
显然,不同的图形对象在展示数据信息方面各有特点。点、线和柱(条)形都是通过坐标轴平面空间内的位置表达数据的,饼图用的是扇区面积,气泡图用的是位置和圆圈大小,热力图则通过颜色区分数值的高低。同时,不同的图形对象还拥有不同的视觉属性,这些属性基本上可分为形状和颜色两大类。
视觉属性由图形对象决定。例如,数据标记、线条颜色主要适用于点图和线图,而不适用于柱形图和条形图。填充图案仅适用于柱形图、条形图及面积类图形对象等。在不同的应用场景中,形状属性和颜色属性可能发挥不同的作用。在黑白印刷这样的颜色显示受限的情况下,会优先使用形状属性。在彩色印刷和多数电子屏幕中,颜色属性则凭借其视觉吸引力更受用户青睐。以常见的柱形图为例,使用横向、纵向条纹等图案填充的柱形图通常多在学术作品中出现,而报刊杂志及电子出版物中大多使用丰富多样的色彩来填充。
视觉属性的意义主要体现在多数据系列的图表中。随着数据维度的增加,例如“不同行业板块不同市值区间的平均市盈率分布”“不同行业板块平均市盈率的月度变化”等,这些多维数据包含行业和市值区间、行业和月份等多个维度的分类信息,此时可使用形状和颜色等属性对多个数据系列进行区分。在此意义上,本章介绍的可视化基本原则在本质上主要适用于多系列或多维分类数据。此外,抛开对“数据系列”的技术层面的理解,在许多较大的样本数据中,如需对部分特定数据点突出显示,也离不开对视觉属性的合理使用。在此情形下,视觉属性是一种有力的分组、聚类表达,在数据挖掘中也有重要用途。
视觉机制和前注意过程在人的各种感觉中,视觉是接受信息的最有效渠道。研究表明,人类70%的感觉神经都与视觉有关。视觉刺激和感知在很大程度上发生于前注意(Preattentive)过程。作为视觉感知的初期阶段,前注意过程产生于意识层之下,能以极高速度捕捉视觉对象的各种信息,如颜色、位置和形状等。
然而,前注意过程仅在一定限制范围内有效,超出范围会导致其效果迅速恶化,最终不但于事无补,而且会妨碍数据表达。有研究表明,二维图表中图形对象的任意视觉属性都不应超过4个,否则会造成类似“内存耗尽”的不良后果。
由此可见,在颜色数量超出前注意过程处理能力的情况下,无论是应用不同颜色,还是使用强弱不同的同一个颜色,视觉效果都无法得到改善。另外,在图表中对同一个图形对象使用多种视觉属性的情况下(同时使用形状和颜色),前注意过程几乎更是无法发挥作用。因此,图表应避免陷入视觉陷阱,以免丧失最基本的可读性。
3.1.4Why:数据和图表的意义
许多分析师在完成数据的过滤、分析工作之后,未能充分认识到图表展现在“输出”环节的重要性。对于相同的数据信息,不同图表的表达效果可能迥异。思考数据和图表的意义是理解图表的关键,因此,任何一张传递重要信息及观点的图表都值得被认真追问:使用特定图形对象和视觉属性而非其他的原因是什么?图表的背后有哪些关键数据信息?这些重要信息是否在当前图表中得到了清晰的表达?
图4-2是一个普通的柱形、线条混合图表,绘制了2015-2020年武汉市大学生的主要收入来源以及每部分所占的比重,不同的收入来源以及金额为堆积柱形,所占比重为折线图。
图4-2柱形、线条混合图
图4-3将图4-2进行了可视化的重新展示,绘制形成了玫瑰图和折线变化图。


图4-2玫瑰图和折线变化图
分析图4-2和图4-3的区别需回到数据层面,图4-2中最关键的数据信息为在样本数据所示的6年内,学生的总收入大部分来自父母,并且比例超过了50%。其次是奖学金和工资,合计占比超35%。但是可以发现虽然是时间数据,但是在图4-2中我们并不能直观的看到每一年的变化情况,收入来源是否一直都主要来自于父母,每一年之中有没有变化。相比之下,图4-3不仅在外形上更具可观性,所得到的结论也更加丰富。在图4-3的左图中我们可以非常明显的看到这6年总体的收入来源情况,而在右图中详细绘制了每一年收入的五类来源占比变化情况。可以看到,来自于奖学金的在2019年人数达到最多,而在2015年和2018年几乎为0,整体趋势呈现“W”形状。而来自于父母的自2015-2018年人数均较多,而在2019年呈现大幅度下降,后逐渐上升。综合来看,收入来源的大幅度变化极有可能与2019年爆发的新型冠状病毒疫情有关,所有家庭收入急剧下降,因此大学生们只能通过奖学金来赚取自己的生活费等。本例也可初步说明图表类型和数据类型之间的关系并非一一对应,重要的并不是时间序列数据该用何种图表类型表达,而是制图者期望传达的数据信息重心在何处。在这个问题上,任何软件都替代不了制图者对数据的探索和挖掘。

