任务一 数据可视化概述
引 例
大卫·麦克德里斯:数据可视化之美
大卫·麦克德里斯(David McCandless)曾为《英国卫报》《连线》《独立报》等刊物撰稿,擅长以简洁精美的图像展现复杂、抽象或分散的资讯,并将不同的数据组合,展现其中的联系和模式。大卫认为,数据可视化不仅是在信息丛林中找到方向的最好方法,还能帮助人们发现全新的视角。
这是一个信息过剩和数据泛滥的时代,导致我们无法在数据丛林中看清真相。一个简单的解决方案就是可视化的方法。通过简单的图表,可以看到各种信息中内在因素的模式和关联,使信息更有意义。
大卫举了一个例子,一张显示各国支出的图表,在没有上下文的情况下,数据显得毫无意义。理解这些数据的唯一方法是通过数据可视化和对比。大卫用颜色来区分动机、用面积来表现支出的多寡,这样的图表让你对各种支出及其间的关系一目了然。比如说石油输出国组织每年有7 800亿元的收益,但每年用于改善气候变化的费用却只有可怜的30亿元,仅仅在图中占据了一个很小的角落。
通过图表表现这些信息,就可以看见整个图像。不仅是财政数据,各种数据包括物流数据等都可以进行可视化处理。
(资料来源:TED大会)
思考题:
1.什么是数据可视化?数据可视化有什么作用?
2.如何进行数据可视化?
引例分析:可视化信息其实是对知识的一种压缩,通过透彻的理解来更简洁地表达海量的信息。数据是新的石油,对其进行挖掘,发掘新视角,催生创新。数据也是一块肥沃且富有创造力的新土壤,通过网络连接各种数据就相当于灌溉的过程,最终可以收获隐藏在数据背后的模式和数据之间的联系。
一、数据可视化简介

视频 什么是数据可视化?
(一)数据可视化的概念
数据可视化(Data Visualization)是关于数据视觉表现形式的科学技术研究。这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断扩大,允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模等对数据加以可视化解释。
它将结构或非结构数据转换成适当的可视化图表,然后将隐藏在数据中的信息直接展现于人们面前。换而言之,数据可视化帮助读者用肉眼更简单直观地看到数据,否则读者只能看到一堆数字。数据可视化综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析。
在进行数据可视化分析时,需要注意两点:一是数据可视化是为了更好地促进行动,所以要让行动的决策人看懂;二是当需要在已知的图表类型中进行选择时,先想想自己想要解决的到底是什么问题。数据可视化分析的本质是借助于图形等各种手段,清晰有效地传达与沟通信息。
(二)数据可视化的类型
数据可视化包括科学可视化、信息可视化和可视化分析学。
科学可视化侧重于利用计算机图形学来创建视觉图像,从而帮助人们理解那些错综复杂而又规模庞大的数字。对于科学可视化来说,三维是必要的,因为典型问题涉及连续的变量、体积和表面积。
信息可视化处理的对象是抽象的、非结构化数据集(如文本、图表、层次结构、地图、软件、复杂系统等)。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此要根据特定数据分析的需求,决定数据元素在空间的布局。
可视化分析学被定义为一门以可视交互界面为基础的分析推理科学。它综合了图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知和认知能力以可视的方式融入数据处理过程,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策。
可视化分析是科学可视化、信息可视化、人机交互、认知科学、数据挖掘、信息论、决策理论等研究领域交叉融合所产生的新领域。可视化分析是一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术,即可视化分析的重点是通过交互式视觉界面进行分析推理。
(三)数据可视化的作用
数据可视化借助图形化手段,清晰有效地传达与沟通信息,使用户能够快速识别。交互式可视化能够让决策者对细节有更深层的了解。
1.知识传输速度快
使用图表来总结复杂的数据,可以确保对数据间关系的理解要比那些混乱的报告或电子表格更快。
2.多维度、多层次的数据展现
将数据每一维的值分类、排序、组合和显示,这样就可以看到表示对象或事件的数据的多个属性或变量。
3.更直观的数据信息展示
数据可视化报告使我们用一些简短的图形就能体现那些复杂信息,甚至单个图形也能做到。决策者可以轻松地解释各种不同的数据源。
4.更易于信息传达的展现方式
在学习时,数据图文能够帮助学习者更好地了解所要学习的信息内容,也更容易让人们记住。
目前,数据可视化被大范围应用在智慧城市、智慧景区、网络态势等领域。随着科技的不断发展和成熟,数据可视化会逐渐成为主流的数据分析方式。
政策文件
《中华人民共和国数据安全法》正式施行
2021年9月1日,《中华人民共和国数据安全法》正式施行。该部法律体现了总体国家安全观的立法目标,聚焦数据安全领域的突出问题,确立了数据分类分级管理,建立了数据安全风险评估、监测预警、应急处置、数据安全审查等基本制度,并明确了相关主体的数据安全保护义务,这是我国首部数据安全领域的基础性立法。
二、数据可视化的基本原则
(一)格式塔原则
“格式塔”(Gestalt)这个词在设计中经常出现,来源于德语,意思是“形式”或“形状”,它通常指的是某事物的整体外观,大于其各部分的总和。在心理学中,格式塔是指允许视觉感知秩序的基本原则。“格式塔”原则比CRAP四大原则更加全面和深入。CRAP四大原则即对比(Contrast)、重复(Repetition)、对齐(Alignment)、亲密性(Proximity)原则。格式塔原则主要包括主体/背景原则、相似性原则、接近性原则、闭合性原则、连续性原则、对称性原则和共同命运原则。
主体/背景原则是指人们在感知事物的时候,总是自动地将视觉区域分为主体和背景。
图形与背景的对比越大,图形的轮廓越明显,则图形越容易被发掘。如当一个较小的形状被一个较大的均匀区域包围时,就会感觉到较小的物体在前面,并且有边界。
相似性原则指的是在某一方面相似的各部分趋于组成整体,即人们通常把那些明显具有共同特性(如形状、大小、颜色等)的事物组合在一起。
接近性原则强调对象之间位置,是指距离相近的各部分趋于组成整体。接近性原则就是指人们在视觉上会自动将靠得近的物象归为一组或一类。
闭合性原则(又称封闭性原则)是指彼此相属、构成封闭实体的各部分趋于组成整体。简单而言,闭合性原则是指人们在视觉上会把不完全封闭的物象当成一个统一的整体。
连续性原则是指凡具有连续性或共同运动方向的部分容易被看成一个整体。也就是说,连续性原则指的是人们在视觉上会把非连续的物象完整化,成为连续的形式。
对称性原则是指对称的元素被视为同一组的一部分。也就是说,人们往往更加倾向于接受那些围绕其中心形成的对称形状。
共同命运原则是指具有共同运动形式的物体被感知为彼此相关的一组,即一组物体具有沿着相似的光滑路径运动的趋势或者具有相似的排列模式时,被识别为同一类物体。
(二)爱德华·图夫特原则
“图表垃圾”是由爱德华·图夫特开发的。1983年,他出版了自己最为知名的书《定量信息的视觉展示》。其提到的主要原则如下。
1.图形完整性
它指的是视觉元素表示数据的准确程度。信息可能差异很大,即使是相关数据,因此人们希望并倾向于不成比例地扩展数据,以使其适合允许的空间。
2.最大化数据墨水比
数据墨水比(Data-Ink Ratio)是指图表中用于数据的墨水量与总墨水量的比值。
最大化数据墨水比是指在墨水数量一定的情况下最大化数据墨水所占的比例。那么什么是数据墨水?什么是非数据墨水?
数据墨水是指为了呈现数据所用的墨水,在图表中主要是指柱状图的那些柱子,折线图的那根线之类的。而非数据墨水就是除了这些数据以外的元素所用的墨水,在图表中主要指网格线、坐标轴、填充背景等元素。
数据墨水比=图表中用于数据的墨水量/总墨水量
=图表中用于数据信息显示的必要墨水比例
=1.0-可被去除而不损失数据信息的墨水比例
这个原则就是指在设计的时候尽可能多地重点突出数据元素而淡化非数据元素。数据墨水比的比值越高,说明图表中越多的视觉编码被用于传递真正的信息,而不是出现冗余,或者用于描述一些其他的东西。
3.避免图表垃圾
图表中过度和不必要的图形效果使用被称为图表垃圾。根据图夫特的说法,所有信息都应该尽可能简洁有效,重点是构建上下文、删除文本标签和添加更多视觉效果。
4.数据密度
数据密度,即图形单位面积内展示的观察变量数据量,即用于显示数据的总尺寸的比例。在合理范围内最大化数据密度和数据矩阵,其实现方法之一是收缩,即保证大多数图形可以在不丢失可读性的情况下缩小。
数据密度=数据阵列/数据图形区域中的条目数量
图表的数据密度越高越好,特别是当处理和解释额外信息的边际成本降低时。富数据设计为统计证据提供了场景信息,提升了可信度,避免了低信息图表带来的怀疑。
(三)美学原则
美学原则需符合构图美、布局美。
构图美需达到稳定的构图,简单,平衡,聚焦。
简单则要求避免在可视化项目中包含过多的造成混乱的图形元素,也要尽可能不使用过于复杂的视觉效果。
平衡则要求可视化的设计空间必须被有效利用,尽量使重要元素置于可视化设计空间的中心或中心附近,同时确保元素在可视化设计空间中的平衡分布。
聚焦则通过适当的技术手段将用户的注意力集中到可视化结果中的最重要区域。
布局美需达到合理的信息布局,同时色彩方面也应协调,不同的色彩给人不同的心理感受。
三、数据可视化的基本流程
可视化不是一个算法,而是一个流程,有点像流水线,但这些流水线之间是可以相互作用的、双向的。可视化流程主要分成三个部分——前端、处理及后端,这和软件的开发流程不是一个概念。数据可视化基本流程如图10-1所示。

图10-1 数据可视化基本流程
(1)数据采集:数据采集是数据可视化的第一步,也是基础。数据采集的分类方法有很多,从数据的来源来看主要有两种,即内部数据采集和外部数据采集。内部数据采集,通常数据来源于企业内部的业务数据。外部数据采集,指的是通过一些方法获取来自企业外部的数据。获取外部数据主要是为了获取竞品的数据和官方机构官网公布的一些行业数据。数据的采集直接决定了数据的格式、维度、尺寸、分辨率、精确度等重要性质,在很大程度上决定了可视化结果的质量。
(2)数据分析:数据分析是进行数据可视化的前提条件,主要包括数据预处理和数据挖掘两个过程。进行数据预处理的原因是,前期采集到的数据往往包含了噪声和误差,数据的质量较低,这个过程包括去除数据噪声、数据清洗、提取特征。数据挖掘则是因为数据的特征、模式往往隐藏在海量的数据中,需要进行更深一步的挖掘才能获取到。
(3)可视化设计:可视化设计是整个可视化流程的核心,它将数据的数值、空间位置、不同位置数据间的联系等,映射到不同的视觉通道(指把经过处理的数据信息映射为视觉元素的过程)。
(4)用户感知:数据可视化和其他数据分析处理办法的最大不同是用户。用户借助数据可视化结果感受数据的不同,从中获取信息、知识和灵感。
上面的可视化流程虽然简单,但也要注意:上述过程都是基于数据背后的自然现象或者社会现象,而不是数据本身;各个模块之间的联系更多是非线性的,任意两个模块之间都可能存在联系。
直通职场
物流数据分析相关岗、证要求

文档 数据可视化的其他流程
物流数据分析员岗位职责要求:能使用表格独立进行物流数据分析,控制物流节点,制作分析报表。例如:建立每月库存分析报表;对部门各项数据的分析及管理;对路线、成本与利润等进行分析;及时跟踪到货入库信息,做好项目占库分解表,跟踪月动销率的库存消化情况;配合业务部做好ERP系统调拨单的调拨出库;做好相关数据资料的保密工作;做好单据的归档等。
1+X物流管理职业技能等级标准(标准代码:530001)中级考证对物流数据统计与分析模块内容的要求:能举例说明供应商评价指标体系的构成和应用;能应用工具与方法对物流数据进行统计与分析;能编制物流数据分析报告。