数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
时间属性的可视化

如果将时间属性或顺序性当成时间轴变量,那么每个数据实例是轴上某个变量值对应的单个事件。对时间属性的刻画有三种方式。

1.线性时间和周期时间:线性时间假定一个出发点并定义从过去到将来数据元素的线性时域。许多自然界的过程具有循环规律,如季节的循环。为了表示这样的现象,可以采用循环的时间域。在一个严格的循环时间域中,不同点之间的顺序相对于一个周期是毫无意义的,例如,冬天在夏天之前来临,但冬天之后也有夏天。对于线性时间,在表达维度上最常用的是线性映射方式;而对于周期时间,则经常使用径向和螺旋形的映射方式。

2.时间点和时间间隔:离散时间点将时间描述为可与离散的空间欧拉点相对等的抽象概念。单个时间点没有持续的概念。而间隔时间表示小规模的线性时间域,例如几天、几个月或几年。在这种情况下,数据元素被定义为一个持续段,由两个时间点分隔。时间点和时间间隔都被称为时间基元。

3.顺序时间、分支时间和多角度时间:顺序时间域考虑按先后发生的事情。对于分支时间、多股时间分支展开,有利于描述和比较有选择性的方案(如项目规划)。这种类型的时间支持做出只有一个选择发生的决策过程。多角度时间可以描述多于一个关于被观察事实的观点(如不同目击者的报告)。对于这种刻画方式,在表达维度上最常用的是线性映射方式。

5.1.1线性和周期时间可视化

不同类别的时变型数据需采用不同的可视方法来表达。标准的显示方法将时间数据用二维线图显示,x轴表示时间,y轴表示其他的变量。

 

5-3时序数据的线性和周期性表达。左:标准的单轴序列图;右:径向布局

5-3右图将时间序列沿圆周排列。它采用螺旋图的方法布局时间轴,一个回路代表一个周期。选择正确的排列周期可以展现数据集的周期性特征。此外,图中显示的时间周期是28天,从4个比较明显的部分我们可以推断出所有5天的整数倍作为周期。此外,为了体现时变型数据的周期结构,可以采用环状表示某时间段内的时间结构。

除了以上形状外,我们也可以借助某些场景化的形象来可视化时间。例如图5-4采用河流来代表时间的变化,不同颜色代表国产轿车的不同品牌,形象地展示出2002-2011年这十年间国产轿车的发展情况。

 

5-4河流图

5-5左上图采用堆叠的语义流方法表达多个变量随时间演化的过程。这种堆叠流图方法既显示总量,又能显示多个时间序列数据的对比,且每个时间流的分段标签易读,可区分不同的层次,常用于时间流数据的可视化。尽管时间轴本质是线性的,但仍可采用美观的可视化手段表现时变序列数据。图5-5右上图是美国纽约时报刊登的采用光滑曲线形状的流图可视化结果。图5-5下图是利用热力图的形式,对Twitter用户关于5个不同的主题观点随时间变化的情况进行可视化。

 

5-5左上:采用Streamgraph呈现多角度语义流的演变过程;右上:美国纽约时报刊登的采用光滑曲线形状的流图可视化1986—2008年卖座电影的票房。

下:利用热力图的形式可视化Twitter用户关于5个不同的主题观点随时间的变化

时变型数据中的其他属性可以采用不同的可视化通道表达。例如,可将热图和螺旋图有机结合来显示一年的气象变化,更能直观的看出周期性的变化。

 

5-6热图和螺旋图的有机结合

5.1.2日历时间可视化

时间属性可以和人类日历对应,并分为年、月、周、日、小时等多个等级。因此,采用日历表达时间属性,和我们识别时间的习惯符合。对于日历时间的可视化,在表达维度上一般采用表格映射的方式对时间轴进行处理。

将日期和时间看成两个独立的维度,用第三个维度编码与时间相关的属性,如图5-7所示,既呈现了全年的耗电量走势,也呈现了每日耗电量的周期性特征。以日历视图为基准,也可在另一个视图上展现时间序列的数据属性,日历视图和属性视图通过时间属性进行关联。从日历视图上可以观察以季度、月、周、日为单位的趋势。对多个时间单位的数据进行聚类合并,可以观察不同时间段的趋势异同。

 

 

5-7将小时、日期作为x,y轴,耗电量作为高度

 

5.1.3分支和多角度时间可视化

类似于叙事型小说,时变型数据中蕴含的信息存在分支结构,对同一个事件也可能存在多个角度的刻画。按照时间组织结构,这类可视化可分为线性、流状、树状、图状等类型。这类可视化一般在表达维度上采用线性映射的方式对时间轴进行处理。

为了呈现一个完整的事件历程和社会行为(如个人健康记录、历史事件),可采用类似于甘特图的方式,使用多个条形图线程表现事件的不同属性随时间变化的过程,线条的颜色和厚度都可以编码不同的变量。观察者既可以交互地点击某个线程获取详细的细节,也可以直观地得到按时间排列的事件概括。

空气质量关系着大众日常生活,我们可以利用多角度的圆环图来可视化地展示空气质量的变化情况,帮助人们更好地保护环境。如图5-8所示,优美的圆环展示了北京的多个空气质量指标以年为周期的变化。可以明显地看到北京在2015年期间内12-3月内的空气质量较差,可以据此针对性的进行解决。

 

5-8北京2015年的空气质量指标变化

基于河流的可视隐喻可展现时序型事件随时间产生流动、合并、分叉和消失的效果,这种效果类似于小说和电影中的叙事主线。例如,软件开发中协作关系的演变类似于电影中的人物关系。每个开发人员在开发过程中用一条线表示,当两个程序员同时开发同一个模块的时候,他们的线条合并。可视化学者MichaelOwaga开发的Storylines软件可读入软件版本控制系统(如SVN等)的日志,从中读取开发者的信息和协作关系,自动绘制类似于电影人物关系图的软件开发历程图。

另一个例子是复杂的人际关系的动态可视化,是将人物关系用社会网络图表示,再用动画回放图的变化。图5-9是艺术家手工绘制的电影指环王人物关系的演变,x轴代表时间,每一个人物用一条线表示,当两个人物在一起时,两条线合并,分开时,两条线也分开。其中,灰色区域表示战斗或者有事件发生;圆点表示人物的死亡。图5-9下图展示了局部可视化细节:在某个时间点,4个哈比人出现了分歧。FrodoSam离开了MerryPippin,AragornLegolasGimli也和哈比人失散了。在导致分开的事件中,死去的人是Boromir

 

5-9时间主线可视化展现电影指环王人物关系的演变

5.1.4时间属性的动态可视化

尽管基于动画形式的可视化有着一定的局限性,也不是时变型数据可视化的主流,但在诠释某些动态事物的过程时,适当地采用动态可视化方法,有助于普通用户以可视的形式了解整个事件过程。例如,GapMinder软件用动态可视化展示各国人口、经济的发展历程。如图5-10所示的是其中的一帧,展现了各国在2000年的人均寿命与经济收入情况。

 

5-10GapMinder展示各个国家人均寿命与经济收入情况