数据可视化

余凌 胡昌龙 严庆 田萌 李伟卿

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
数据可视化基础

1.2.1数据可视化释义

数据是指对客观事件进行记录并可以鉴别的符号,主要记载客观事物的性质、状态以及相互关系。数据既可以是狭义的数字,也可以是具有一定意义的文字、字母、数字符号的组合、2121、视频、音频等,还可以是客观事物的属性、数量及其相互关系的抽象表示。数据经过加工,就成为了信息。两者既有联系,也有区别。数据是信息的表现形式和载体,而信息是数据的内涵,信息是加载于数据之上的,是对数据经过加工处理之后得到的,具有逻辑性和观念性,是数据有意义的表示。也就是说,数据本身没有意义,只有对实体行为产生影响时才成为信息。

大数据时代,数据遍布于我们生活的每一个角落。对于大多数人来说,真正有意义的并不是数据本身,而是数据背后蕴含的信息。要想探索和理解那些大型的数据集,可视化是最有效的途径之一。那么,为什么数据可视化是探索和理解大数据的最有效的方法呢?

这是因为,我们利用视觉获取的信息量,远比别的感官要多得多。这是因为人眼是一个高带宽的巨量视觉信号输入并行处理器,最高带宽为每秒100MB,具有很强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,且大量的视觉信息的处理发生在潜意识阶段。其中比较典型的一个例子就是视觉突变:在一大堆灰色物体中能瞬时注意到红色的物体。

正所谓“字不如表,表不如图”,研究表明80%的人能记得所看到的的事物,而只有20%的人能记得所阅读的文字。因此,相较于文字类型的数据,人眼对图形的敏感度更高,记忆的时间更久。数据可视化就是将数据和信息通过用图来表示展示其价值。可视化对应两个英文单词:Visualize和Visualization。Visualize是动词,意即“生成符合人类感知”的图像;通过可视元素传递信息。Visualization是名词,表达“使某物、某事可见的动作或事实”;对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。Visualization也可用于表达对某目标进行可视化的结果,即一帧图像或动画。

在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。例如,表1-1中的4个二维数据点集,它们的单维度均值、最小二乘法回归线方程、误差的平方和、方差的回归和、均方误差的误差和、相关系数等统计属性均相同,因此,通过这些传统的统计方法难以对它们直接进行区分。

1-14个二维数据点集

X1

X2

X3

X4

x

y

x

y

x

y

x

y

10.0

8.04

10.0

9.14

10.0

7.46

8.0

6.58

8.0

6.95

8.0

8.14

8.0

6.77

8.0

5.76

13.0

7.58

13.0

8.74

13.0

12.74

8.0

7.71

9.0

8.81

9.0

8.77

9.0

7.11

8.0

8.84

11.0

8.83

11.0

9.26

11.0

7.81

8.0

8.47

14.0

9.96

14.0

8.10

14.0

8.84

8.0

7.04

6.0

7.24

6.0

6.13

6.0

6.08

8.0

5.5

4.0

4.26

4.0

3.10

4.0

5.39

19.0

12.50

12.0

10.84

12.0

9.13

12.0

8.15

8.0

5.56

7.0

4.82

7.0

7.26

7.0

6.42

8.0

7.91

5.0

5.68

5.0

4.74

5.0

5.73

8.0

6.89

但是,当将实际的数据分布情况用二维可视化呈现,如图1-1时,观察者可迅速地从数据中发现它们的不同模式和规律。

 

1-1Anscombe实验(Anscombe1973)的4个二维数据点集的可视化

在工作和生活中,一张图片所传递的信息往往比文字更直观。因此,自古以来,记录信息的有效方式之一就是用图形的方式描述各种具体或抽象的事物。数据可视化有着非常久远的历史,其发展历程主要经历了9个阶段:

 

1-2数据可视化发展进程

1)图表萌芽阶段(17世纪前)

可视化的萌芽起源于几何图表和地图。17世纪之前,人类已经开发了精确观测的物理技术和器具,开始手工制作可视化图表,其目的是展示一些重要的信息。如图1-3为公元前6200年绘制的地图。

 

1-3公元前6200年的地图

2)物理测量阶段(1600-1699年)

17世纪最重要的科学进展是物理基本量(时间、距离和空间)的测量理论与设备的完善。这些理论和设备被广泛应用于航空、测绘、制图和国土勘探等领域。图1-4诞生于1626年,描绘了太阳黑子随时间变化的情况。这幅图包含多个小图,用来刻画不同时间段的太阳黑子。

 

1-41626年太阳黑子随时间变化图

3)图形符号阶段(1700-1799年)

17世纪后期到18世纪,绘图家不再满足于在地图上展现几何信息,发明了新的可视化表达方法,如等值线、轮廓线等。18世纪是统计图形学的繁荣时期,折线图、柱状图、饼状图等基础图形都产生于这个时期。现代图表的发明者威廉·普莱费尔(WilliamPlayfair)发明了广泛流传的折线图和柱状图,在其著作《统计摘要》(StatisticalBreviary)中发明了饼状图,如图1-5所示:

 

1-5《统计摘要》(StatisticalBreviary)中的饼状图

4)数据图形阶段(1800-1899年)

19世纪,人类已经掌握了整套统计数据可视化工具,包括柱状图、饼图、直方图、折线图等,这个时期进入了统计图形学的黄金时期。图1-6为巴黎工程师查尔斯·约瑟夫·密纳德(CharlesJosephMinard)用信息图的方式展示了1812年拿破仑大军征服莫斯科的艰苦旅程,信息图中的黑色粗线显示了在极端天气下拿破仑的军队撤退的行经路线,并标注了对应的温度和时间。

 

1-6拿破仑行军路线图

著名的可视化专家、作家和评论家爱德华·塔夫特(EdwardTufte)评论该图说:“这是迄今为止最好的统计图。”在这张图中,密纳德用一种艺术的方式,详尽地表达了多个数据的维度(军队的规模、行军方向、军队汇聚、分散和重聚的时间与地点、军队减员过程、地理位置和温度等)。

5)可视化的现代启蒙阶段(1900-1949年)

20世纪上半叶,可视化随着统计图形的主流化开始在政府、商业和科学等领域广泛应用。人们第一次意识到图形显示能为航空、生物等科学与工程领域提供新的洞察和发现机会。多维数据可视化和心理学的介入是这个时期的重要特点。1933年HenryBeck(亨利·贝克)设计的伦敦地铁图脱离真实地理位置的束缚,忽略各车站的精确位置,以相似的间隔来进行标注,并将45度和90度的电路图布局带入地铁路线图当中,整个地铁线路网显得清楚明了、次序井然。这种设计方法成为地铁路线的标准可视化方法,沿用至今。

6)多维信息的可视编码阶段(1950-1974年)

1967年,法国人JacquesBertin出版了《图形符号学》一书,描述了构成图形的基本要素和图形设计的框架。这套理论奠定了信息可视化的理论基石。

1973年HermanChernoff(赫尔曼诺夫)采用15个指标,发明了表达多维数据的脸谱编码,一个指标代表一个面部特征,这样,按照各变量的取值,根据一定的数学函数关系,就能确定脸的轮廓以及五官的部位等,每一个样本点都用都可用一张脸谱来表示。脸谱图容易给人们留下较为深刻的印象,通过对脸谱的分析,就可以直观地对多维数据进行归类或比较研究。

 

1-71973年HermanChernoff(赫尔曼诺夫)发明的表达多维数据的脸谱编码

7)多维统计图形阶段(1975-1986年)

1970年以后,随着个人计算机的普及和不断发展,可视化处理的数据范围从简单统计数据扩展为更大的网络、层次、数据库、文本等非结构化与高维数据。各个领域对于数据分析和可视化提出了更高的需求,从而促使信息可视化发展成一门学科。如图1-8,利用雷达图对多维数据进行统计,比较公有云、私有云、混合云多个维度的性能值。

 

1-8利用雷达图比较公有云、私有云、混合云

8)交互可视化阶段(1987-2004年)

1980年末,视窗系统的问世使得人们能够直接与可视化的信息之间进行交互,随着金融交易、社交网络、文本数据等大量涌现,多维、时变、非结构化信息越来越多,静态的可视化图表已无法满足人们的需求。因此,各种交互可视化的方法应运而生。

9)可视分析学阶段(2004-至今)

进入21世纪,新的可视化媒介互联网出现,这催生了许多新的可视化技术和功能。数据可视化是一项将文字数据转换为图像数据从而清晰有效地传达与沟通信息的一项研究。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。由于数据分析的重要性,将可视化与数据分析结合,可形成一个新的学科:可视分析学(VisualAnalytics)。可视分析学综合图形学、数据挖掘和人机交互的理论与方法,辅助用户从大规模、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息,以便做出有效决策。

当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

1.2.2数据可视化的类型

数据可视化的处理对象是数据。自然地,数据可视化包含处理科学数据的科学可视化与处理抽象的、非结构化信息的信息可视化两个分支。广义上,科学可视化主要面向科学和工程领域,研究带有空间坐标和几何信息的三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何有效地呈现数据中几何、拓扑和形状特征。信息可视化的处理对象则是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是如何针对大尺度高维数据减少视觉混淆对有用信息的干扰。科学可视化、信息可视化和可视分析学三个学科方向通常被看成可视化的三个主要分支。

1)科学可视化

科学可视化是可视化领域最早、最成熟的一个跨学科研究与应用领域,主要面向自然科学,如物理、化学、气象气候、航空航天、医学、生物学等学科,这些学科通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。

 

1-9科学可视化的研究对象

科学可视化的基础理论与方法已经相对成形。早期的关注点主要在于三维真实世界的物理化学现象,因此数据通常表达在三维或二维空间,或包含时间维度。鉴于数据的类别可分为标量(密度、温度)、向量(风向、力场)、张量(压力、弥散)等三类,科学可视化也可粗略地分为三类。

标量场可视化

所谓标量(Scalar),是指只有大小而没有方向的量,比如长度、质量等。标量场指二维、三维或四维空间中每个采样处都有一个标量值的数据场。标量场的来源分为两类。第一类从扫描或测量设备获得,如从医学断层扫描设备获取的CT、MRI三维影像;第二类从计算机或机器仿真中获得,如从核聚变模拟中产生的壁内温度分布。常见的标量场包括温度场,压力场,势场等。标量场可视化是指通过图形的方式揭示标量场(ScalarField)中数据对象空间分布的内在关系。

向量场可视化

向量(Vector),也叫矢量,是既有大小也有方向的量,如力、速度等。假如一个空间中的每一个点的属性都可以以一个向量来代表的话,那么这个场就是一个向量场。向量场同标量场一样,也分为二维、三维等,但向量场中每个采样点的数据不是温度、压力、密度等标量,而是速度等向量。向量最直接的方法是在向量场中有限的离散点上显示带有箭头的有向线段,用线段的长度表示向量的大小,用箭头表示其方向。

张量场可视化

张量场可视化方法分为基于纹理、几何和拓扑三类。基于纹理的方法将张量场转换为静态图像或动态图像序列,图释张量场的全局属性。其思路是将张量场简化为向量场,进而采用线积分法、噪声纹理法等方法显示。基于几何的方法显式地生成刻画某类张量场属性的几何表达。其中,图标法采用某种几何形式表达单个张量,如椭球和超二次曲面;超流线法将张量转换为向量(如二阶对称张量的主特征方向),再沿主特征方向进行积分,形成流线、流面或流体。基于拓扑的方法计算张量场的拓扑特征(如关键点、奇点、灭点、分叉点和退化线等),依次将感兴趣区域剖分为具有相同属性的子区域,并建立对应的图结构,实现拓扑简化、拓扑跟踪和拓扑显示。基于拓扑的方法可有效地生成多变量场的定性结构,快速构造全局流场结构,特别适合于数值模拟或实验模拟生成的大尺度数据。

以上分类不能概括科学数据的全部内容。随着数据的复杂性提高,一些带有语义的信号、文本、影像等也是科学可视化的处理对象,且其呈现空间变化多样。IEEEConferenceonScientificVisualization(2012)列出了科学可视化的相关研究主题,如表1-2所示。

1-2IEEE列出的科学可视化的相关研究主题(2012)

主题

研究内容

主题

研究内容

通用数据可视化

标量、向量和张量场

评估

以用户为中心的可用性研究和任务分析

不规则和非结构网格数据

设计研究

基于点的数据

数值误差测度和平台

时变数据

验证与证明

体数据建模

感知与认知

感知理论

可视化技术和方法

等值面抽取

彩色纹理、场景、运动感知

体绘制

感性认识

基于拓扑和几何的技术

大数据可视化

时变数据

面向可视化的偏微分方程

多维多域多模态和多变量数据

基础理论

协同和分布式可视化

流数据

设计策略

多分辨率

面向可视化的数学理论

压缩

可扩展性

PB级可视化

不确定性可视化

应用:流场、生物医学

视点依赖的可视化

系统和方法

视觉设计、可视化系统和工具集设计

信息论

基于图标的方法

机器学习方法

表意性可视化

交互技术

用户界面

移动和普适可视化

交互设计

空间和非空间数据的集成可视化

耦合视图和多视图

数据仓库、数据库可视化与数据挖掘

面向评估的数据编辑

科学和工程中的可视化

数学中的可视化

操纵和变形

物理科学和工程

显示与交互技术

高分辨率显示设备

地球、空间和环境科学

立体显示

流场可视化、地形可视化

沉浸式和虚拟环境

地理信息、地理空间可视化

多模态输入设备

分子、生物医学和医学可视化

面向可视化的触觉

生物信息可视化

可视化硬件

硬件加速

软件可视化

可编程图形硬件和多核结构

社会和商业中的可视化

商业和金融可视化

CPU和GPU集群

社会和信息科学

分布式系统、网格和云环境

面向大众的人文教育

体图形学硬件

多媒体(图像、视频和音乐)可视化

2)信息可视化

信息可视化处理的对象是抽象的、非结构化数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。其表现形式通常在二维空间,因此关键问题是在有限的展现空间中以直观的方式传达大量的抽象信息。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此要根据特定数据分析的需求,决定数据元素在空间的布局。因为信息可视化的方法与所针对的数据类型紧密相关,所以通常按数据类型可以大致分为如下几类:

时空数据可视化

时间与空间是描述事物的必要因素,因此,地理信息数据和时变数据的可视化也显得至关重要。对于地理信息数据可视化来说,合理地选择和布局地图上的可视化元素,从而呈现尽可能多的信息是关键。我们常见的地图是地理信息数据,属于信息可视化的范畴。

时变数据通常具有线性和周期性两种特征,需要依此选择不同的可视化方法。时变数据可视化采用多视角、数据比较等方法体现数据随时间变化的趋势和规律。如图1-10是2020年城市科技创新发展指数经纬度分布图,其中:横坐标表示经度,纵坐标表示纬度,图中点越大表示城市科技创新发展水平越高,绿色点表示城市科技创新发展水平排名较2019年上升或不变,白色点表示城市科技创新发展水平排名下降。

 

1-102020年城市科技创新发展指数经纬度分布图

层次与网络结构数据可视化

网络(图)数据是现实世界中最常见的数据类型之一。人与人之间的关系、城市之间的道路连接、科研论文之间的引用都组成了网络。层次结构(树)则是有一个根节点,并且不存在回路的特殊网络,例如公司的组织结构、文件系统的目录结构、家谱等。层次与网络结构数据都通常使用点线图来可视化,如何在空间中合理有效地布局节点和连线是可视化的关键。

层次数据可视化中,层次数据表达每个个体之间的层次关系。其中,树图是对现实世界事物关系的抽象,是层次数据可视化的典型案例,其数据本身就有层次结构的信息。1-11就是国家部门机构进行层次划分,第一层是中央,第二层是中央部门,依次类推。

 

1-11我国国家结构层次划分

文本和跨媒体数据可视化

随着网络媒体,特别是社交媒体的迅速发展,每天都会产生海量的文本数据,人们对于视觉符号的感知和认知速度远远高于文本,因此,我们需要从非结构化文本数据中提取结构化信息,并进行可视化。通过可视化呈现其中蕴含的有价值的信息将大大提高人们对于这些数据的利用率。

多变量数据可视化

用于描述现实世界中复杂问题和对象的数据通常是多变量的高维数据,如何将其在二维屏幕上呈现是可视化面临的挑战。多变量数据的可视化方法包括将数据降维到低维度空间,使用相互关联的多视图同时表现不同维度等等。在数据爆炸时代,信息可视化面临巨大的挑战:在海量、动态变化的信息空间中辅助人类理解、挖掘信息,从中检测预期的特征,并发现未预期的知识。

IEEEConferenceonInformationVisualization2012列出了信息可视化的相关研究主题:

1-3IEEE列出的信息可视化的相关研究主题(2012)

主题

研究内容

主题

研究内容

信息可视化、技术和交互方法

图、树和其他相关数据

信息可视化综合课题

视觉设计与美学

高维数据和降维

认知和感知

社会和泛在信息

可听化、展示和传播

文本和文档

移动与普适计算

非专家用户

信息可视化方法

可视化系统

异常和不确定数据

设计研究和案例研究

时间序列数据

新算法与数学方法

任何非空间数据或新型空间映射下的空间数据

分类和模型

信息可视化交互技术

 

图标和图例方法

评估

方法、探讨和框架

聚焦+上下文

任务和需求分析

动画

定性和定量评价

缩放和漫游

实验与领域研究

链接+刷选

新的评估方法

耦合式多视图

可用性研究和焦点团体

数据标记、编辑和标注

信息可视化应用领域

统计图形学

可伸缩性

面向数学的信息可视化

协作、协同定位和分布式

地理信息可视化

操纵和变形

生物医学可视化

可视数据挖掘和可视知识发现

金融可视化

3)可视分析学

可视分析学被定义为一门以可视交互界面为基础的分析推理科学。它综合了图形学、数据挖掘和人机交互等技术(见图1-12右图),以可视交互界面为通道,将人的感知和认知能力以可视的方式融入数据处理过程,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策。图1-12左图诠释了可视分析学包含的研究内容。

 

1-12左:可视分析学涉及的学科;右:可视分析学的学科交叉组成

新时期科学发展和工程实践的历史表明,智能数据分析所产生的知识与人类掌握的知识的差异正是导致新的知识发现的根源,而表达、分析与检验这些差异必须充分利用人脑智能。另外,当前的数据分析方法大都基于先验模型,易于检测已知模式和规律,对复杂、异构、大尺度数据的自动处理经常会失效,例如,不知道数据中蕴含的模式、搜索空间过大、特征模式过于模糊、参数很难设置等等。而人的视觉识别能力和智能恰好可以辅助解决这些问题。另外,自动数据分析的结果通常带有噪声,需要人工干预排除。为了有效结合人脑智能与机器智能,一个必经途径是以视觉感知为通道,通过可视交互界面,形成人脑和机器智能的双向转换,将人的智能特别是“只可意会,不能言传”的人类知识和个性化经验可视地融入整个数据分析和推理决策过程中,使得数据的复杂度逐步降低到人脑和机器智能可处理的范围。这个过程,逐渐形成了可视分析这一交叉信息处理的新思路。迄今为止,可视分析的基本理论与方法仍然是一个有待解决的新课题,值得深入研究。

可视分析学可看成将可视化、人的因素和数据分析集成在内的一种新思路。其中,感知与认知科学研究人在可视分析学中的重要作用;数据管理和知识表达是可视分析构建数据到知识转换的基础理论;地理分析、信息分析、科学分析、统计分析、知识发现等是可视分析学的核心分析论方法;在整个可视分析过程中,人机交互必不可少,用于驾驭模型构建、分析推理和信息呈现等整个过程;可视分析流程中推导出的结论与知识最终需要向用户表达、作业和传播。可视分析学是一门综合性学科,与多个领域相关:在可视化方面,有信息可视化、科学可视化与计算机图形学;与数据分析相关的领域包括信息获取、数据处理和数据挖掘;而在交互方面,则有人机交互、认知科学和感知等学科融合。

 

1-13可视分析学的主要内容

IEEEConferenceonVisualAnalyticsScienceandTechnology2012列出了可视分析学的相关研究主题:

1.可视表达和交互技术:信息展示原理、新的视觉策略、统计图形学、地理空间可视化、交互科学,构建可视化和交互的方法

2.数据管理和知识表示:包括大容量和流式数据的可伸缩表示、统计和语义特征、基于分布式数据来源的信息合成等

3.分析式推理:包括人类分析的表述、知识发现方法、感知与认知、协同式可视分析学等

4.表达、作业和传播方法:包括分析过程的建模、面向特定和不定对象的叙事性呈现

5.可视分析技术的应用:包括但不限于科学、工程、人文、商业、公共安全、贸易和后勤等方面

6.评估方法,安全与隐私,互通性和技术实践与经验

7.推理过程的表述性可视化与可视表达

8.允许交互可视分析的数据变换的理论基础

9.可视分析学的基础算法与技术,包括用户和设备自适应性、网页接口和移动设备

科学可视化、信息可视化和可视分析三者之间没有清晰边界。科学可视化主要处理带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。由于数据的规模通常超过图形硬件的处理能力,所以如何快速地呈现数据中包含的几何、拓扑、形状特征和演化规律是其核心问题。随着图形硬件和可视化算法的迅猛发展,单纯的数据显示已经得到了较好的解决。信息可视化主要处理抽象数据以及用户的敏捷交互和可视化有效性的评断等。可视分析学将交互式视觉表示与基础分析过程(统计过程、数据挖掘技术)结合,能有效执行高级别、复杂的活动(推理、决策)。

目前,国际上顶级的可视化学术年会是IEEEVIS(http://ieeevis.org),它包含三个主会:IEEEScientificVisualization(原名IEEEVisualizationConference,起源于1990年)、IEEEInformationVisualization(起源于1995年)和IEEEConferenceonVisualAnalyticsScienceandTechnology(IEEEVAST,起源于2006年)。大会做口头报告的论文在可视化领域顶级期刊IEEETransactionsonVisualizationandComputerGraphics上发表。除报告学术论文外,年会还组织讨论组、研讨会、学习班、海报展示和工业界的展览。其他有名的学术会议有EurographicsConferenceonVisualization、IEEEPacificVisualization等。

1.2.3数据可视化的标准

所谓可视化就是用图形来显示数据的过程,有一个对可视化更为科学的说法是,可视化是人与数据之间的图形化接口。在这里不对这个接口做更为详细的解释,而是通过介绍这个过程的一套标准,也可以理解为一套原则,来提高数据可视化的设计及结果。

1)受众群体

在数据可视化的初期,首先要明确可视化结果的受众。

如果你做的图是给自己或合作同伴看,那么就可以省略一些步骤,因为你们都知道这张图的背景以及所要表达的信息;但如果你打算把这张图发表到科学期刊上,那么就需要确认这张图是否正确、是否清晰、是否无歧义、是否包含了期望传递的所有信息。

如果是为了向学生解释一个概念,则必须添加额外的信息,确保这个概念能够被学生充分理解;对于普通大众来说,也许是最困难的,你需要设计得尽可能简单易懂,只展示最重要的那部分。

2)传递的信息

用一个图形用来展示一个想法、一些事实或结果,这些信息如果用文字来描述也许很长或难以描述。因此,明确这张图形的作用很重要,明确期望传递的信息,才能找到对应的最佳的可视化方法。

这幅图明确地列出烟草税的每一笔资金的去向,使政府的信息更加公开化、透明化,加深民众对于政策的理解,从而更好地推进政策的实施。

 

1-14烟草税的构成

3)适配不同设备的图形

你的图形可能会在不同的设备上展示,如海报、电脑、监视器、投影仪,或就在一张纸上。每一个设备都代表着不同的尺寸、不同的分辨率,以及不同的查看和交互方式。

比如在一个口头报告中,一张图显示的时间有限,观众必须在短时间内理解图的内容,同时还要聆听你的说明。因此,这个张图必须简洁、突出重要信息。同时也需要注意的是,观众是从远处来看这张图,因此,图上的元素要尽可能突出,粗线条、大的点、对比强烈的颜色等等。

但如果是在期刊论文上,情况则完全不同。观众可以想看多久就看多久。这意味着图上可以添加更多的信息。如果是在电脑上查看,图形还可以被拖动、放大来查看。

因此,一张图形需要适配不同的显示设备。你应该抛弃那种直接从文章中截图放到PPT上的做法。比如下面这张图。左边适合放到文章里,而右边适合做报告时放到PPT里。

 

1-15左图适用于论文,右图使用于口头报告

4)标题

不管是描述一个实验步骤、介绍一个新模型,或展示一些结果,这张图形必须有标题,不要希望观众只靠图形就能猜出这张图索要表达的含义。

5)颜色的使用

颜色是可视化图形的一个重要维度。颜色可以使图形锦上添花,也可能会使图形杂乱无章。

如果决定使用颜色,就需要慎重考虑使用哪种颜色,在哪里使用颜色。如要突出一些元素,那么就可以单独为这个元素上色,而保持其他元素为灰色或黑色。

切忌使用过多相似的颜色,使人难以辨别颜色的差异。

6)图形美观

一张图里有太多不必要或令人疑惑的元素,包括使用太多的颜色、标记、背景色、网格线等等。

如下图所示,左面将7组数据用不同的颜色画到一张图里,有效信息都混杂到了一起,非常糟糕;而右面将7组数据用7个图分别突出显示,一目了然。

 

1-16通过颜色选取优化图形

1.2.4数据可视化与其他学科的关系

数据可视化既与信息图、信息可视化、科学可视化以及统计图形密切相关,又是数据科学中必不可少的环节。数据科学在研究、教学和工业界等领域方兴未艾,数据可视化是一个活跃且关键的方面。

1)计算机图形学与人机交互

计算机图形学是一门通过软件生成二维、三维或四维动态影像的学科。起初,可视化通常被认为是计算机图形学的子学科。通俗地说,计算机图形学关注数据的空间建模、外观表达与动态呈现,它为可视化提供数据的可视编码和图形呈现的基础理论与方法。数据可视化则与具体应用和不同领域的数据密切相关。由于可视分析学的独特属性以及与数据分析之间的紧密结合,数据可视化的研究内容和方法已经逐渐独立于计算机图形学,形成一门新的学科。

人机交互指人与机器之间使用某种语言,以一定的交互方式,为完成确定任务的信息交换过程。人机交互是信息时代数据获取与利用的必要途径,是人与机器之间的信息通道。人机交互与计算机科学、人工智能、心理学、社会学、图形、工业设计等广泛相关。在数据可视化中,通过人机界面接口实现用户对数据的理解和操纵,用户有自行地探索动态数据,创建报表,以及分享自己信息的需求。更好地实现人机交互、方便的控制数据是人类一直追求的目标。因此,可视化与人机交互相结合是可视化研究的重要发展方向。而且近些年移动终端的快速发展,随时随地提供可视化数据访问与交互已经成为了商业可视化产品的一大卖点。

1-17人机交互概念图

人机交互技术领域热点技术的应用潜力已经开始展现,如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术;应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术;应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别;应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障碍人士开发的“意念轮椅”采用的基于脑电波的人机界面技术等。人机交互解决方案供应商不断地推出各种创新技术,如指纹识别技术,侧边滑动指纹识别技术,压力触控技术等。热点技术的应用开发既是机遇也是挑战。基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度,眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、DNA等人类特征的研发、应用也正受到关注,多通道的整合也是人机交互的热点。另外,与“无所不在的计算”“云计算”等相关技术的融合与促进也需要继续探索。

2)数据库与数据仓库

数据库是按照数据结构来组织、存储和管理数据的仓库,它高效地实现数据的录入、查询、统计等功能。尽管现代数据库已经从最简单的存储数据表格发展到海量、异构数据存储的大型数据库系统,但是它的基本功能中仍然不包括复杂数据的关系和规则的分析。数据可视化通过数据的有效呈现,有助于对复杂关系和规则的理解。面向海量信息的需要,数据库的一种新的应用是数据仓库。数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,用以支持决策制订过程。在数据进入数据仓库之前,必须经过数据加工和集成。数据仓库的一个重要特性是稳定性,即数据仓库反映的是历史数据。数据库和数据仓库是大数据时代数据可视化方法中必须包含的两个环节。为了满足复杂大数据的可视化需求,必须考虑新型的数据组织管理和数据仓库技术。

3)数据分析与数据挖掘

数据分析是统计分析的扩展,指用数据统计、数值计算、信息处理等方法分析数据,采用已知的模型分析数据,计算与数据匹配的模型参数。常规的数据分析包含三步:

第一步,探索性数据分析.通过数据拟合、特征计算和作图造表等手段探索规律性的可能形式,确定相适应的数据模型和数值解法;

第二步,模型选定分析。在探索性分析的基础上计算若干类模型,通过进一步分析挑选模型;

第三步,推断分析。使用数理统计等方法推断和评估选定模型的可靠性和精确度。不同的数据分析任务各不相同。例如,关系图分析的10个任务是:值检索、过滤、衍生值计算、极值的获取、排序、范围确定、异常检测、分布描述、聚类、相关性。

数据挖掘指从数据中计算适合的数据模型,分析和挖掘大量数据背后的知识。它的目标是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、未知的、潜在有用的信息和知识。数据挖掘的方法可以是演绎的,也可以是归纳的。数据挖掘可发现多种类型的知识——反映同类事物共同性质的广义型知识;反映事物各方面特征的特征型知识;反映不同事物之间属性差别的差异型知识;反映事物和其他事物之间依赖或关联的关联型知识;根据当前历史和当前数据推测未来数据的预测型知识;揭示事物偏离常规出现异常现象的偏离型知识。

数据可视化和数据分析与数据挖掘的目标都是从数据中获取信息与知识,但手段不同。两者已成为科学探索、工程实践与社会生活中不可缺少的数据处理和发布的手段。数据可视化将数据呈现为用户易于感知的图形符号,让用户交互地理解数据背后的本质;而数据分析与数据挖掘通过计算机自动或半自动地获取数据隐藏的知识,并将获取的知识直接给予用户。数据挖掘领域注意到了可视化的重要性,提出了可视数据挖掘的方法,其核心是将原始数据和数据挖掘的结果用可视化方法予以呈现。这种方法糅合了数据可视化的思想,但仍然是利用机器智能挖掘数据,与数据可视化基于视觉化思考的大方针不同。值得注意的是,数据挖掘与数据可视化是处理和分析数据的两种思路。数据可视化更擅于探索性数据的分析,例如,用户不知道数据中包含什么样的信息和知识,对数据模型没有一个预先的探索假设,探寻数据中到底存在何种有意义的信息。

4)统计图形学与信息图

面向广义数据的视觉设计,是信息设计中的一个分支,可抽象为某种概念性形式如属性、变量的某种信息。这又包含了两个主要领域:统计图形学和信息图。它们都与量化和类别数据的视觉表达有关,但被不同的表述目标驱动。统计图形学(StatisticalGraphics)应用于任意统计数据相关的领域,它的大部分方法如盒须图、散点图、热力图等方法已经是信息可视化的最基本方法。信息图(Infographics)限制于二维空间上的视觉设计,偏重于艺术的表达。信息图和可视化之间有很多相似之处,共同目标是面向探索与发现的视觉表达。

特别地,基于数据生成的信息图和可视化在现实应用中非常接近,且有时能互相替换。但两者的概念是不同的:可视化指用程序生成的图形图像,这个程序可以被应用到不同的数据;信息图指为某一数据定制的图形图像,它是具体化的、自解释性的,而且往往是设计者手工定制的,只能应用于特定数据。由此可以看出,可视化的强大普适性能够使用户快速地将某种可视化技术应用于不同数据。