数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
案例2

游客来到陌生的地方,想要在地图上找到某个感兴趣的区域(AOI),需要花费很多时间来浏览地图。标注和注释可以有效地缩短他们的搜索过程。但是,什么样的标注才是最有效的呢?参考其他学者的做法,可使用眼动仪对4种在地图上标注的方法进行比较。

第一步:确定实验目标

常见的标注方法是首先对多个区域的名字在图外排序,并在名字旁边给出关于相应位置的提示。在这个实验中,研究者希望对一种无标注的方法(基准方法)和三种提供不同标注提示的方法(见图8-11)进行比较

 

8-11在图上标注位置的4种方法。

 

左上:图内标注(WA);右上:网格参考标注(GA);左下:方向标注(DA);右下:缩略图标注(MA)。

图内标注(WA):仅在图内相应位置直接标出区域名,不添加标注。

网格参考标注(GA):通过2D笛卡儿坐标系将地图分成多个小单元,并基于行列对小单元编号。在地图外,在每个区域名字旁边会给出它所在位置的单元编号,如“A3”

方向标注(DA):除了坐标,通过方向和距离也可以确定一个区域的位置。该方法用箭头指出区域的方向,并在箭头上通过标注的位置表示距离的大小。

缩略图标注(MA):它同样是基于网格单元划分的。不同之处在于,每个单元的位置不是通过编号来表示的,而是通过缩略图的相应位置高亮来表示的。在实验开始之前,基于理论分析,研究者提出了5点假设。

1)不使用标注的方法在地图上找到AOI,需要花费比使用标注的方法更长的时间,即:WAGA,WADA,WAMA

2)使用三种有标注的方法所花费的时间也存在差异:GADAMA

3)使用有标注的方法时,参与用户的扫视长度将会大于不使用标注的方法,因为有了标注的提示,用户的扫视可以有更长的跳转。

4)使用DAGAMA方法时,可视搜索从外部区域开始,然后转向内部,最后结束于目标标签。此外,参与用户注视外部区域的平均时间应该比注视内部区域的平均时间要短。这是因为标签的实际搜索比利用视觉辅助来估计标签的位置需要更多的时间。

5)在注视内部区域时,使用DA方法的扫视运动模式不同于GAMA方法。使用DA方法时,参与用户的目光会沿着一条线定向搜索;而使用GAMA方法时,参与者会在某个格子中搜索。因此,在后续扫视中,比起GAMA方法,DA方法将会有更小的角度偏差。

为了验证这些假设,参与用户将被要求佩戴眼动仪,尽可能快地完成在地图上准确找到特定标签的任务。记录每次任务的完成时间,并使用眼动仪记录参与用户的视线移动情况。

第二步:准备实验

为了避免参与用户在实验中遇到熟悉的地图,实验使用研究者生成的人造地图数据。研究者分别使用4种标注方法生成了80张地图(共320张)。

本次实验招募了32位大学生。每个参与用户需要基于80张地图完成任务(每种方法各20张)。因此,每4个参与用户可以给出一份全数据集的测试结果。实验使用两阶段平衡以补偿学习成本和疲劳效应。

在实验过程中,参与用户坐在屏幕前方约60厘米处,以保证眼动仪的良好校准。眼动追踪软件的标准滤波器参数为最小覆盖范围是10像素;最短固定间隔为30ms。因为参与者的头部并未固定,到屏幕的距离并不恒定。不过鉴于头部运动的影响很小,视角可以对应约35像素。

第三步:进行实验

实验的具体执行顺序如下。

1)请参与用户签署同意书,通过Snellen图表完成视力测试并提供一些信息。经测试,全部参与用户的视力为正常或矫正后正常。统计结果表明,在32位参与用户中,有27位男士、5位女士;年龄在2032岁之间,平均年龄为22.8岁;有29位专业为计算机科学或者软件工程。

2)向参与者讲解任务并引导他们完成教程。教程中包括每种标注方法的解释和示例任务。

3)在任务执行过程中,先向用户呈现目标标签名字,按键后显示地图图像。在定位标签过程中,参与用户不允许使用任何辅助手段,包括鼠标、手指灯,以避免对方向标注的影响。

4)填写调查问卷。参与用户需要回答一些主观问题,比如:你是否使用了搜索技巧?MAGA方法哪个在定位时更方便?本次实验中,有两位参与用户的测试数据由于技术问题导致眼动追踪记录错误被排除。

第四步:分析结果并讨论

任务执行分析

研究者根据任务的完成时间对标注方法进行了评估。参与者平均需要3.56sMA)、4.19sGA)、4.54sDA)和5.95sWA)完成任务,如图8-12所示。与基准方法WA相比,MA40.2%,GA29.6%,DA23.7%

 

8-124种方法的完成时间

眼动数据

在分析眼动数据时,研究者将平均注视时间和平均扫视长度作为相关量进行评估(见图13.12)。从图8-13可以看出,由于设计相似,DAMA方法形成了一个聚类,另外两种方法则分散在其他地方。对注视时间的事后分析表明,GA方法和所有其他方法之间存在差异(p0.05);对扫视长度的分析表明,除MADA方法之外,所有成对组合都有显著性差异(p0.007)。这个结论证明了假设3

 

8-134种标注方法的平均注视时间(x轴)和平均扫视长度(y轴)。误差条显示眼动数据平均值的标准差(SEM)。

接下来,研究者对GADAMA三种标注方法的两个视觉搜索阶段进行了分析。在第一阶段中,参与用户将注意力集中在地图的外部区域;在第二阶段中,他们将注意力切换到地图内搜索标签。使用除WA方法以外的任意方法时,参与用户都会先在外部区域搜索,而WA方法没有第一阶段。这证明了假设4的第一部分。

 

8-14参与用户的行为。

为了验证假设4的第二部分,研究者分析了两部分的注视时长。如图8-14b)所示,第二阶段的平均时间比较长。在第一阶段中,与MADA方法相比,GA方法的注视时间更长。使用GA方法时,参与用户不仅需要找到标签所在格子的标注,还必须记住它的坐标。因此会花费更长的时间。而使用MADA方法时,参与用户可以较快速地确定粗略位置,并进入第二阶段,搜索标签。对于外部区域,显著性检验表明差异(χ22=19.67;p0.001)。事后检验显示只有GA-MAp0.001)和GA-DAp0.001)之间存在差异。GA方法的平均注视时间为406.17ms,MD方法为311.92ms,DA方法为303.81ms。对于内部区域,结果依然显著(χ23=25.89;p0.001)。尤其是GA-WAMA-WADA-WA之间存在差异(p0.001)。GAMADAWA方法的内部平均注视时间依次为451.76ms485.58ms476.95ms384.08ms。这些结果可以证明假设4的第二部分。

研究者继续分析在第二阶段中扫视路径方向变化的平均角度,以讨论假设5。为了处理搜索方向的反转(180°转弯),研究者研究了较小的方向变化角度。统计检验结果显示标注方法对角度确实有显著性影响(F3116=34.84;p0.001),事后检验结果证明了以下几对差异的显著性:DA-WADA-GADA-MAGA-WAp0.001)。具体的平均方向变化角度为41.74°GA)、39.34°MA)、31.39°DA)和36.82°WA),如图13.13c)所示。可以看出,使用DA方法时,参与用户改变方向的角度比较小,这是因为这种方法与其他方法相比提供了更加明确的方向提示。因此,假设5也得到了证明。

3.主观评估

图内标注(WA:19位参与用户使用了搜索技巧。最常见的是水平或垂直扫视,或者从屏幕中间开始,以螺旋形向外扫视。

网格参考标注(GA:25位参与用户使用了搜索技巧。他们先从标注中找到目标标签和相应的网格坐标,然后再到相应的单元格中寻找。

方向标注(DA:26位参与用户使用了搜索技巧。他们先在图像周围找到方向注释,然后跟着箭头寻找标签。

缩略图标注(MA:25位参与用户使用了一种常见的搜索技巧。与DA方法类似,他们首先在标注中搜索,然后再跳转到相应的格子中进行寻找。