数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
长江中游城市群创新网络演变可视化

论文数量是科研人员科研成果的一种体现,也是科研活动的基本量化指标,科研合作通常以共同署名发表论文来体现,且科研中的合作关系是提高成果产出能力的重要因素之一,因此城市群内城市间合作发表论文的数量可以用来衡量城市间创新合作情况。

(1)数据准备

①数据检索

基于WebofScience数据库,在数据库的检索中选择高级检索,以长江中游城市群31个城市为计量单元,将时间段限定在2008-2018年之间,输入“AD=城市名称”,可得到每个城市发表论文的数量,通过WebofScience数据库中提供的AND运算,可获得31个城市间任意两个城市合作的论文数量,得到31*31的合作矩阵。

10-121数据准备

②数据导入

按照前文介绍的方法在Ucinet中导入Excel数据,转换成##h、##d的Ucinet数据格式。

 

10-122Ucinet数据截图

2)制作网络关系图

利用检索得到的2008年、2010年、2012年、2014年、2016年、2018年长江中游城市群内31个城市间的论文合作数据,提取城市间创新合作联系大于0的边权,按照自然断点法划分为不同的等级,点击“VisualizenetworkwithNetDraw”按钮进行可视化表达,得到相应年份的创新网络空间分布图。

 

10-123 2008年长江中游城市群创新网络分布图

 

10-124 2010年长江中游城市群创新网络分布图

可以看到,武汉、长沙两个节点比较突出,说明城市间创新连系量以从各地区流向武汉、长沙为主,在城市群内具有绝对的连通优势,其中武汉和长沙之间的联系最为紧密,联系强度最大。与2008年相比,2010年加入了新的节点城市:江西省鹰潭市

2012年,长江中游城市群签订了《长江中游城市群战略合作框架协议》,武汉、长沙、南京基本形成三核心的三角形网络结构,城市群内31个城市都加入到创新网络当中,同时,湘潭作为次中心的地位凸显。

 

10-1252012年长江中游城市群创新网络分布图

2014年,创新网络关系数达到第一个高峰值,长江中游城市群创新网络各节点城市间创新联结程度明显增强。

 

10-1262014年长江中游城市群创新网络分布图

2016-2018年间节点层级性更为鲜明,创新网络呈现出以武汉、长沙为主核心,南昌为次核心,株洲、湘潭、衡阳为主要节点的多边形网络结构。

 

10-1272016年长江中游城市群创新网络分布图

 

10-1282018年长江中游城市群创新网络分布图

3)可视化分析

①拓扑结构分析

a.网络规模与网络密度

对整体网来说,网络规模就是指网络中所有行动者,也就是节点的数目。个体网的规模指的是与某个核心个体直接相关的其他个体的数量。关系数度量的是网络中连接节点的边数,反映的是两个城市间存在合作联系的数目。网络密度是反映网络连通性的一个指标,如果一个网络中所有节点都直接相连,则这个网络被称为“完全图”,网络密度即为网络中实际的连接数占整体网络理论上可能存在的所有连接数的比值,反映了网络的紧密程度,取值范围在0~1之间,是对网络完备性的一种测度,密度越大,说明网络中成员关系越紧密,那么在网络密度高的创新网络中,创新资源流动的速度更快。如果网络中有n个行动者,则网络中存在的最大的关系数为,若网络中实际存在的关系数为m,则网络密度为:

 

b.度数与中心性

节点度数是节点在网络中与其他节点相连的个数,一个点的度数就是对其“邻点”多少的测量。在本文构建的长江中游城市群创新网络中,节点度数表示长江中游城市群内某一城市与其他城市创新合作联系是否广泛,如果一个节点的度数为0,则称为“孤立点”。平均度数是网络中所有节点度数的均值,其具体计算方法如下:

 

其中,表示网络的平均度数,表示节点的度数,N表示成员数目。

加权度()表示长江中游城市群内一个城市与另一个城市间创新合作联系的深浅度,是与该节点相连的所有边的权重()之和,平均加权度是网络中所有节点城市加权度的平均值,其表达式为:

 

 

点度中心度是指与某一节点有直接关系的点的数目,在无向图中,点度中心度就是点的度数,在有向图中又分为点入度和点出度。局部中心度指的是局部某点对其邻点而言的相对重要性,整体中心度指的是该点在总体网络中的战略重要性。测量点中心度最简单直接的办法就是图中各点的度数,如果某点度数高,则该点居于网络的中心。而中心势指的不是点的相对重要性,而指的是整个图的总体凝聚力或整合度,其表达式为:

 


其中,表示网络中最大中心度的数值,表示其他各点的中心度。

c.聚类系数与平均最短路径长度

聚类系数(ClusteringCoefficient),也叫族系数,表示网络中节点趋向于聚集到一起的概率,可以考量临近节点的紧密联系程度,聚类系数越大,说明在长江中游城市群创新网络中存在一些小团体。聚类系数(ClusteringCoefficient)和平均最短路径长度(AverageShortestPathLength)常用来判断一个网络是否具有小世界的特征。平均聚类系数是网络中所有行动者聚类系数的平均值,取值介于0~1之间。网络的平均聚类系数指在网络中与同一个节点相连接的两节点之间也相互连接的平均概率,该系数通常用来刻画网络的局域结构性质。

由于研究目的,我们可能需要同时计算出多个点的多种中心度指数来进行对比分析。我们可以在Ucinet软件中点击Network-Centrality-MultipleMeasures来计算,得到整体网拓扑结构分析的相关指标,结果见表。

10-2

年份

关系数

网络密度

度数中心势

关系强度

平均度数

平均加权度

平均聚类系数

平均路径长度

2008

105

0.538

12.92%

15.39

7.31

137.586

0.741

1.749

2009

100

0.249

11.13%

20.43

6.966

157.655

0.756

1.759

2010

112

0.257

11.76%

18.78

7.467

154

0.731

1.761

2011

113

0.262

11.66%

18.19

7.6

171.867

0.712

1.777

2012

132

0.284

11.92%

18.53

8.516

185.677

0.712

1.74

2013

139

0.301

11.79%

19.25

9.032

198.258

0.724

1.705

2014

145

0.312

11.80%

18.14

9.355

213.871

0.761

1.731

2015

128

0.277

10.74%

20.04

8.323

237.613

0.739

1.729

2016

145

0.312

9.39%

24.72

9.355

284.645

0.745

1.699

2017

153

0.331

9.69%

25.04

9.935

302.774

0.751

1.69

2018

164

0.355

9.48%

28.04

10.645

354.839

0.768

1.652

根据计算结果所示,长江中游城市群创新网络的关系数从2008年到2014年持续增加,在2014年达到一个小高峰值1452015年网络关系数下降至1282016年开始缓慢上升。网络密度从2010年开始呈现波动上升趋势,网络密度随时间的演化而不断增加,说明网络中的各城市间的合作水平在不断提高,是创新网络走向成熟的一种表现,但直到2018年,长江中游城市群创新网络的网络密度也才为0.355,密度一直较低,说明该创新网络中的节点数量较少,创新联系的广度和紧密度都有待加强。网络中心势是用来对比网络边缘点和中心点的中心度差异的情况,如果一个网络很稀疏,那么该网络的中心点和边缘点的中心度没有多少差异,相反,如果一个网络很集中,那么势必是中心点中心度高,边缘点中心度底,2008-2018年间,长江中游城市群创新网络的度数中心势总体上呈下降趋势,说明城市间创新联系程度差距总体呈缩小的趋势。从平均度数看,长江中游城市群创新网络的平均度增长趋势与其关系数增长趋势一致,呈现小波动式的增长特征。同时,平均加权度的变化最为显著,说明随着网络关系数的增加,各城市间的创新合作频率也得到大幅度提高,平均加权度从2008年的137.586增长到2018年的354.839,增长达2.58倍。

②演进方向分析

在现实社会里,大部分的网络都具有高集聚性、不均衡的度分布以及中心节点结构。在网络理论中,一个网络如果只有少量的长程连接,相对于节点数量来说,平均路径却很短,则该网络即为小世界网络。用图论的语言解释,也就是说,小世界网络中任意两点之间的平均路径长度比定点数量小得多。

利用Ucinet软件计算的长江中游城市群创新网络2008-2018年的两个独立的结构特征,即平均聚类系数和平均路径长度,并同时计算该随机网络的平均聚类系数和平均路径长度,模拟得到与历年创新网络拥有相同节点数目和网络密度的Erdos-Renyi随机网络,如图所示:

 

10-129长江中游城市群实际网络和随机网络的平均聚类系数与平均路径长度

在网络结构的集聚性方面,长江中游城市群创新网络的平均聚类系数呈现偶有波动的上升模式,且都在0.7以上,表现出较强的集聚性,并且长江中游城市群创新网络从2008-2018年的平均聚类系数数值均明显高于与其对应的随机网络的计算值。网络结构的可达性方面,2008-2014年间,平均路径长度呈波动状态,2014年开始,平均路径长度逐年下降,与此同时,与其对应的随机网络的平均路径长度相近。即从2014年开始,相对于同等规模节点的随机网络,长江中游城市群创新网络除了拥有较短的平均最短距离之外还具有高度的集聚性,符合典型的小世界网络的基本特征,说明长江中游城市群创新网络具有小世界效应,且创新网络正朝向高聚集、短路径的小世界网络发展,并且在实践中已证明,具有小世界特征的动力系统往往拥有较强的信息的传播能力和计算能力。

凝聚子群分析

凝聚子群是行动者的一个自集合,集合中的个体具有相对较强的、直接的、紧密的联系。凝聚子群分析是基于城市间相关关系数据,找出网络中存在多少个这样的子群,分析子群内部成员之间的接近性或可达性,以及子群之间关系的密切程度,以揭示城市群体内的小团体聚集状态。以2018年的城市间创新联系值为例,利用Ucinet软件的CONCOR算法,将长江中游城市群的节点城市划分为不同数目的子群,如图所示:

 

10-130长江中游城市群创新网络的凝聚子群分析

从凝聚子群分析结果可以看出,长江中游城市群创新网络在二级层面分属八个凝聚子群,子群一为武汉,长株潭城市圈7个城市(株洲湘潭岳阳益阳常德衡阳娄底)组成了子群二,子群三由鹰潭、新余、新干、上饶四个城市组成,子群四只有宜春这一单一城市,子群五包含了长江中游城市群中湖北省内除武汉之外的其他12个城市,九江、景德镇、萍乡构成一个子群,作而为核心节点的长沙、南昌未受到地理约束,共同组成一个子群,抚州市由于跟城市群内其他城市创新联系均较少,在创新网络的边缘成为一个孤立。