4.3.1数据筛选
(1)数据的采集
数据采集的来源包括企业或机构的内部数据,社交媒体数据,以及机器和传感器的数据。
①企业/机构内部数据
包括企业内部的信息管理系统、销售业务系统、客户关系管理系统、公司的生产数据、库存数据、订单数据、供应链数据等。以及科学研究数据,越来越多的科学应用正产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析,比如:光学观测和监控、计算生物学、天文学、高能物理等,另外还有政府机构的数据。
②社交媒体数据
包括电子邮件、文档、图片、音频、视频。通过门户网站、QQ、微信、微博、抖音、facebook等社交媒体产生的数据流。以及各种交易数据,如二维码扫码支付数据、POS机数据、信用卡刷卡数据。还有电子商务交易数据,以及互联网浏览点击数据。
③机器和传感器数据
在万物互联的物联网时代,数据不仅来源于感应器、量表和其他相关设施、定位/GPS系统,也有来自源于如智能温度控制器、智能电表、工厂机器以及连接互联网的家用电器以及各种设备。
采集到的数据类型可以分为4大类:类别型数据,有序型数据,区间型数据,比值型数据。
图3-10数据类型
a.类别型数据:用于区分物体。例如,根据性别可以将人分为男性或者女性;商品可按用途、原材料、生产方法、化学成分、使用状态等方面进行不同的分类。这些类别可以用来区分一组对象。
b.有序型数据:用来表示对象间的顺序关系。比如成绩排名,身高排序等。
c.区间型数据:用于得到对象间的定量比较,相对于有序型数据,区间型数据提供了详细的定量信息。例如,身高4000px与身高4250px相差250px,而4250px与4500px也相差250px,它们俩的差值是相等的。由此可见,区间型数据基于任意的起始点,所以它只能衡量对象间的相对差别。
d.比值型数据:用于比较数值间的比例关系,可以精确地定义比例。比如,2班的学生是1班的2倍(2:1)。
在数据可视化中,通常并不区分区间型数据和比值型数据,而是将数据类型精简为3种:类别型数据、有序型数据和数值型数据(包括区间型数据和比值型数据)。基础的可视化设计一般针对这3种数据展开,而复杂型数据通常是这3种数据的组合或变化。
(2)数据的清洗
数据质量是数据采集后所需考虑的第一个问题。对于海量数据来说,未经处理的原始数据中包含大量的无效数据,这些数据在到达存储过程之前就应该被过滤掉。在原始数据中,常见的数据质量问题包括:噪声和离群值、数值缺失、数值重复等。解决这些问题的方法称为数据清洗(DataCleaning)。
•噪声指对真实数据的修改;离群值指与大多数数据偏离较大的数据。
•数值缺失的主要原因包括:信息未被记录;某些属性不适用于所有实例。处理数据缺失的方法有:删除数据对象;插值计算缺失值;在分析时忽略缺失值;用概率模型估算缺失值等。非结构化数据通常存在低质量数据项(如从网页和传感器网络获取的数据),构成了数据清洗和数据可视化的新挑战。
•数值重复的主要来源是异构数据源的合并,可采用数据清洗方法消除。
处理数据丢失和重复记录仅是数据清洗的一部分。其他操作还包括:运用汇总统计删除、分辨或者修订错误或不精确的数据;调整数据格式和测量单位;数据标准化与归一化等。另一方面,实际采集的数据经常包含错误和自相矛盾的内容,而且实验、模拟和信息分析过程不可避免地存在误差,从而对分析结果产生很大的影响。通常这类问题可以归结为不确定性。由于不确定性数据与确定性数据存在显著差异,所以针对不确定性数据需要采取特殊的数据建模、分析和可视化方法。表3-1中列出了数据清洗最终需要达到的目标,包括有效性、准确性、可信性、一致性、完整性和时效性六个方面。在数据清洗步骤完成后,该表可作为数据清洗效果的检查表,对已进行的清洗过程进行评估。
表3-1数据清洗效果检查表
目标 | 含义 |
有效性 | 数据是否真实合理 |
准确性 | 数据是否准确,有误差 |
可信性 | 数据来源和收集方式是否可信 |
一致性 | 数据(格式、单位等)是否一致 |
完整性 | 数据是否有缺失 |
时效性 | 数据适用范围(相对分析任务) |
可视化作为一种有效的展示手段和交互手段,在数据清洗中发挥了巨大的作用。有人提出33种脏数据类型,并且强调其中的25种在清理时需要人的交互。这意味着多种脏数据在清理时可使用交互式可视化方法来提高数据清理效率,如图3-11所示。
图3-11可视数据清理实例。左上:某图结构的节点-连接布局;右上:该图结构的矩阵布局。将矩阵视图的行列进行重排后,可发现矩阵右下部分的数据缺失。
目前一些商业工具提供了交互式可视化界面,来辅助用户完成数据清洗工作。OpenRefine(前身为GoogleRefine)使用交互式编辑和简单脚本方式来完成数据编辑、转换和问题值处理等功能(图3-12)。Trifacta公司的Wrangler工具通过展示数据的统计图表,来支持用户执行数据初探操作,渐进式地发现数据中包含的问题和缺陷,并提供了一系列数据编辑工具来进行清洗操作。
图3-13显示的是TrifactaWrangler系统界面,左侧使用数据表格和直方图形式展示数据原貌;右侧面板提供了一系列推荐的数据编辑和清洗操作。
图3-12OpenRefine以数据表格为主要展示方式,配以交互式和脚本式数据编辑操作,来支持用户的数据清洗任务。
图3-13TrifactaWrangler系统界面
(3)数据的存储
数据预处理后,需要存储数据。目前的主要数据存储介质类型包括内存、磁盘、磁带等。主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织。主要数据组织管理层次包括按块级组织、文件级组织及数据库级组织等。不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。
数据库是数据存储的基础。数据库是数据的集合,并且同时包含对数据的相关组织和操作。数据库允许用户通过控制和管理的方式来访问数据,同时采用稳定的方法来处理安全性和数据一致性。数据库的类型包括:分布式数据库、文档存储、列式存储、键值存储、图形数据库、关系数据库和内存数据库。
图3-14常用的数据库类型
4.3.2确定数据到图形元素和视觉通道的映射
将数据以一种直观、容易理解和操纵的方式呈现给用户,需要将数据转换为可视表示并呈现给用户。数据可视化向用户传播了信息,而同一个数据集可能对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。判断某个视觉编码是否合适的因素包括感知与认知系统的特性、数据本身的属性和目标任务。大量的数据采集通常是以流的形式实时获取的,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。这不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。因此不仅需要研究新的软件算法,还需要更强大的计算平台(如分布式计算或云计算)、显示平台(如一亿像素显示器或大屏幕拼接)和交互模式(如体感交互、可穿戴式交互)。对于类别型数据属性,务必使用分类型视觉通道;对于有序型数据属性,也需要使用定序的视觉通道进行编码。
4.2.3视图的选择与用户交互控制的设计
对数据进行可视化和分析的目的是解决目标任务。有些任务可明确定义,有些任务则更广泛或者一般化。通用的目标任务可分成三类:生成假设、验证假设和视觉呈现。交互是通过可视的手段辅助分析决策的直接推动力。有关人机交互的探索已经持续很长时间,但智能、适用于海量数据可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。

