任务二 数据可视化的应用
一、数据可视化的基本工具
入门级工具主要有Microsoft Excel和PowerPoint等。高级工具有无须编程语言的工具、基于JavaScript的工具以及基于其他语言的工具等。下面重点阐述入门级工具。
Microsoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。其直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。Excel的数据可视化,除了最为常见的标准图表之外,还可以通过REPT函数、条件格式、迷你图、动态透视图、Power Map三维地图等方式实现。
(一)REPT函数
REPT函数可以根据指定次数重复文本(数字、字母、字符串、图形等)。
1.成绩星级评定
REPT函数实现星级评价,操作方法:单元格C2用实心五角星“★”显示等级,在C2中输入公式“=REPT("★",B2)”;单元格D2用实心五角星“★”和空心五角星“☆”显示等级,在D2中输入公式“=REPT(“★”,B2)&REPT(“☆”,5-B2)”(表10-1)。
2.制作条形图
如表10-2所示,在C2输入公式“=REPT("|",B2)&B2”,完成后在字体选项中将字体更改为“Playbill”,可以再将字体填充一个颜色,这样横向条形图就生成了。
表10-1 REPT函数实现星级评价

表10-2 REPT函数实现条状图

(二)条件格式
条件格式,就是让符合条件的单元格显示为预设的格式,即根据条件使用数据条、色阶和图标集,以突出显示相关单元格,强调异常值,以及实现数据的可视化效果。在Excel菜单中,一个完整的条件格式称为一条规则(即条件+格式=规则)。Excel条件格式,预设了五种类型的规则,即“突出显示单元格规则”“项目选择规则”“数据条”“色阶”“图标集”。除了预设的五种类型,还可以通过“新建规则”创建新规则。这几种规则可以分为三类:第一类,实现单元格内可视化(即基于各自值设置所有单元格的格式);第二类,实现数值的突出显示;第三类,使用公式控制格式。
条件格式实现目标可视化的步骤如图10-2所示。通过条件格式的【管理规则】—【编辑规则】,重新设置规则,将默认的最大值类型“自动”更改为“数字”,值设置为销售目标所在的单元格即可,还能够根据目标的变化而动态调整。

图10-2 条件格式—目标达成可视化
(三)迷你图
迷你图就是放置在单个单元格中的小图表,可以在单元格中用图表的方式来呈现数据的变化情况。当有多组数据需要分别查看数据趋势,但分别作图又很麻烦,且将多个数据图放在同一个表格又显得杂乱时,就可以考虑使用Excel的迷你图可视化功能。迷你图的趋势效果如表10-3所示。
表10-3 迷你图的趋势效果

(四)动态透视图
动态透视图,就是通过Excel的数据透视表和数据透视图,实现多维数据的汇总与可视化。数据透视表从Excel 2010开始增加了切片器功能,从Excel 2013开始增加了日程表功能。切片器和日程表都可以更快速直观地实现对数据的筛选操作。数据筛选步骤如图10-3所示。

图10-3 数据筛选步骤
(五)三维地图
Power Map三维地图是一种三维(3D)数据可视化工具,可以更立体直观地看到在传统的二维(2D)表格和图表中可能无法看到的内容。
(六)箱形图
箱形图,又称为盒须图、盒式图、盒状图或箱线图,是一种用于显示一组数据分散情况资料的统计图(见图10-4)。它因形状如箱子而得名,常见于品质管理。

图10-4 箱形图
箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、上四分位数及下四分位数(排在1/4和3/4位置上的数)。
小思考:
已知15位拣货员同一天内拣货件数如下:
75,64,57,68,62,62,59,64,67,64,57,69,67,53,72,绘制拣货量分布的箱形图。
(七)PowerPoint简介
Microsoft Office PowerPoint是指微软公司的演示文稿软件。无论是工作总结汇报、企业介绍,还是招商策划等场景,都少不了它的身影。通过使用PPT,可以更直观地对相关成果进行量化展示,相较文字而言,更容易吸引观看者的目光和注意力。例如,PPT图表就是数据可视化的一个重要手段,不仅直观,并且能体现各种各样的关系类型,如对比、趋势、比例等。除了基础的图表应用,还可以在普通图表的基础上,进行创意设计,充分实现PPT的数据可视化。
二、不同可视化图形的使用场景
(一)散点图
散点图适用于显示数据之间的相关性。如果想知道两个指标之间有没有关系,散点图是最直观、精确的可视化图表。
(二)折线图
时间序列的数据用折线图来实现可视化:用线条将相关数据联系在一起,可以观察到随着时间呈现的变化趋势。
(三)柱状图
堆积柱状图不仅能比较各个类别总体的区别,还能看出每个类别中子成分的占比情况。缺点是让用户产生视觉上的压力,只能比较紧贴X轴的子成分,Y轴的子成分很难比较。
瀑布图也是一种柱状图,可以抽离出堆积柱状图中的一部分重点关注,或者展示起点和结果以及其中上升、下降的变化。
直方图:当查看数据是如何在各个类别中分布时,可以使用直方图,给每个类别画一个柱子,是柱状图的特殊形式。直方图的柱子是连续的,暗示数值上的连续。
(四)条形图
条形图是柱状图翻转90度得到的图形,可以比较多组数据,很容易阅读,当类别名称很长时可以很好展示,从左到右很符合阅读习惯。
(五)其他图形
饼图:表示数据占比,人眼不擅长在二维空间定量分析,当各部分大小相近时很难判断哪块更大,应避免使用。
箱形图:适应于数据集的描述性统计分析,也就是四分位数,线的两端表示数据的最大值和最小值,箱子上下两端表示排在前25%和75%位置的数值,箱子中间的横线表示中位数,箱形图可以很清楚地展示这几个指标。
透视图:这种方法适用于描绘斜向上或斜向下的数据。
散点图:用于发现各变量之间的关系。适用于存在大量数据点的情形,结果更精准,比如回归分析。
三维地图:实现“地图可视化”,将地理数据转换成可视化形态,将具有地域特征的数据或者数据分析结果形象地表现在地图上,使用户更容易理解数据规律和趋势。
三、智慧物流项目数据分析
数据可视化在智慧物流项目的应用大体可以分为三类,包括:比较类图表、分布类图表和占比类图表。
(一)比较类图表
比较类数据的可视化就是通过可视化方法显示值与值之间的不同和相似之处,通常用于展示不同分类间的数值对比和不同时间点的数据对比等。常用图形有柱状图、条形图、气泡图和子弹图。
小任务:对某物流公司销售数据进行研究和分析,比较和评估不同类别销售额之间的差距。
对于销售额的分析大体包括两种:一是特定产品中每个大类的销售额差异;二是特定产品中每个大类下每个子类的销售额差异。操作步骤如下:
步骤一:进入大数据多维分析平台。
步骤二:进入“销售数据—订单”数据表,单击【聚合】按钮设置聚合条件为“总和的销售额”,如图10-5所示。
步骤三:在下方的分组条件选择“类别”。
步骤四:单击【完成】按钮。
在上述步骤三的基础上在“分组条件”添加“子类别”,即可实现每个大类下各个子类产品的销售额,柱状图中不同颜色表示不同的产品大类,细分柱状表示细分产品的销售额。单击可视化图表下方的【表格视图】项,单击【销售额的总和】项,选择【降序】排列;切换至柱状图可视化(见图10-6)。根据柱状图的结果显示,可以发现所有的产品子类别按降序排列,其中家具的书架类销售额最高,其次为办公用品的器具类。通过柱状图的显示可以发现:该物流公司家具类的产品总销售额最高,其次是技术,最小是办公用品。

图10-5 聚类条件设置
(二)分布类图表
分布类数据的可视化就是通过可视化图表显示数据的频率。由于数据分散在一个区间或分组,所以使用图形的位置、大小、颜色的渐变程度来表现数据的分布。

图10-6 各个子类产品的销售额降序
小任务:对某物流公司销售额数据分布进行研究和分析。
产品销售额分布是查看和分析客户一次性购买产品花费的费用区间,可以用直方图来表示。
步骤一:进入大数据多维分析平台。
步骤二:进入“销售数据—订单”数据表,单击【聚合】按钮选择总行数。
步骤三:在下方的分组条件中选择“销售额”。
步骤四:单击【完成】按钮。
根据结果显示,顾客购买费用集中分布在0~5 000元,极少数单价为5 000元以上(见图10-7)。如此设置单位价格的分组间隔是有问题的,需要进行更细致的分割(见图10-8)。在经过更为细致的分割后,产品价格集中分布在0~750元,少数分布在750元以上。

图10-7 某物流公司销售额分布

图10-8 细分之后的销售额分布
(三)占比类图表
占比类数据的可视化实现就是通过可视化的方法显示同一维度上占比关系。这种占比关系,可以分为两种:数值之间的比例关系以及部分对整体的比例关系。前者适合采用南丁格尔玫瑰图(见图10-9)、词云图(见图10-10)等进行展现;后者适合采用饼图、桑基图等进行展现。

图10-9 南丁格尔玫瑰图

图10-10 词云图
饼图用来展示各类别占比,适用于了解数据的分布情况,反映部分与整体的关系,要求其数值中没有零或负值,并确保各分块占比总和为100%,当数据类别较多时,可以把较小或不重要的数据合并成“其他”模块。如果各类别都必须全部展示,此时选择柱状图或堆积柱状图。
南丁格尔玫瑰图又名鸡冠花图或极坐标区域图。使用扇形的半径表示数据的大小,各扇形的角度则保持一致。对照饼图,由于半径和面积的关系是平方的关系,南丁格尔玫瑰图会将数据的比例大小夸大,尤其适合对比大小相近的数值。南丁格尔玫瑰图可在一个图表中集中反映多个维度方面的百分比构成数据,幅面小,信息量大,形式新颖,吸引注意力。
词云,又称标签云、关键词云,是文本数据的视觉表示,由词语组成类似云的彩色图形。词云中每个词的大小取决于其在文章中出现的频率,频率越高,在文字云图中显示越大,可以直观反映文章中文字密度及重要性。