3.2 查询与统计分析
3.2.1 查询分析
空间查询分析:按一定的条件,对空间数据库中的空间实体及其空间信息进行访问,从众多的空间实体中挑选出满足用户要求的空间实体及其相应的属性。
当查询到所需要素后,可以将结果输出为新的要素图层,实现空间数据的提取。
3.2.1.1 基于空间要素的查询
根据选中的空间图形要素来查询属性信息。即“由要素(图)查属性”。
要实现这类查询,一般是首先选中某一空间要素(如城市、河流、行政区),然后通过空间数据和属性数据之间的连接关系(标识符),从属性表中提取该实体的各项属性,从而达到了解要素属性信息的目的。
在ArcGIS中,可以使用ArcMap里的Identify工具实现本类查询。

图3.21 基于空间要素的查询(Identify)
3.2.1.2 基于属性特征的查询
先查找符合条件的属性信息,然后根据与其相联系的标识符,找到对应的空间要素,实现“由属性查要素(图)”。
采用ArcMap中Selection菜单下的Select By Attributes工具,可以实现本类查询。

图3.22 基于属性特征的查询(Select By Attributes)
3.2.1.3 基于图形关系的查询
根据某一或某些图形对象(Graphics)所在的地理位置,查询该位置范围内所涉及的空间要素(Features)。查询范围可以通过点、线、圆、矩形或其他任意多边形等图形来确定,然后GIS通过检索出图形范围内的地理空间图形要素来实现查询。
ArcGIS中,可以通过ArcMap的Selection菜单下的Select By Graphics工具进行基于图形关系的空间查询。执行该项查询前,要先采用Draw工具条上的绘图工具在图形显示区中绘制任意一个或多个图形(Graphic)(点、线或多边形),并选中所绘制的图形,然后再执行Select By Graphics。

图3.23 基于图形关系的查询(Select By Graphics)
3.2.1.4 基于空间关系的查询
依据空间要素之间的位置关系检索出满足这种关系的空间目标要素。
由于地理要素间的空间关系多种多样,因此也形成了多种不同的查询方法。
图3.24 基于空间关系的查询(Select By Location)
ArcMap中Selection菜单下的Select By Location工具可以执行以下10余种基于空间关系的查询:
1.相交(Intersect)。查找目标图层中与源图层要素在2维或3维空间中几何上相交的要素。
2.在一定距离范围之内(Within a distance)。查询目标图层中与源图层要素在2维或3维空间中某一距离之内的要素。
3.包含(Contain)。查询目标图层中包含源图层要素的要素。
4.完全包含(Completely contain)。查询目标图层中完全包含源图层要素的要素。
5.落入(Within)。查询目标图层中落在源图层要素范围之内的要素。
6.完全落入(Completely within)。查询目标图层中完全落在源图层要素范围之内的要素。
7.相同(Identical to)。查询目标图层中与源图层要素相同的要素。注意用于比较的要素必须类型相同,如同为点、线、或多边形,不同类型的要素(如点与多边形)进行这类比较不会查询到任何结果。
8.接边(Touch the boundary)。查询目标图层中与源图层要素具有接边关系的要素。
9.有公共线段(Share a line segment)。查询目标图层中与源图层要素具有公共线段的要素。
10.轮廓交叉(Crossed by the outline)。查询目标图层中与源图层要素具有轮廓相交关系的要素。
11.中心被包含(Have their centroid in)。查询目标图层中几何中心位于源图层中的要素。
1.邻接查询
邻接查询是根据线、多边形要素之间的相邻关系进行的空间查询。
位置关系:touch the boundary of the source layer feature

图3.25 邻接查询
2.包含查询与落入查询
包含查询是在某一个目标要素中,查找包含了源数据的要素。
位置关系:contain the source layer feature。

图3.26 包含查询
落入查询是在目标数据中查找有哪些要素落入到了源数据之中。
它与包含查询正好相反,相当于将目标数据与源数据进行了对换。
位置关系:arewithin the source layer feature。

图3.27 落入查询
3.相交查询
相交查询是查询源数据中与目标数据部分重叠或完全重叠的要素。参与叠加的要素可以是点、线、或多边形要素。
位置关系:intersect the source layer feature。
图3.28 相交查询
图3.29 缓冲区查询
4.缓冲区查询
缓冲区查询首先在源要素的周围建立一定宽度的缓冲区域,然后在目标数据中查找出与该缓冲区域相交的所有要素。该种查询常常用于邻域分析。
位置关系:are within a distance of the sourcelayer feature。

图3.29 缓冲区查询
5.地址匹配查询
根据街道的自然地址来查询事物的空间位置,是地理信息系统特有的一种查询方法。当正确的街道地址已知时,在地图中只需花费较少的时间就能找到确切的位置。
图3.30 地址匹配查询
6.综合查询
综合查询一般需要采用多种查询方法,在查询满足第一个条件的基础上,再查询满足第二个、第三个,直至最后一个条件的对象。
3.2.2 统计分析
3.2.2.1 特征数统计方法
1.数据的集中特征数
(1)频数和频率(Frequency)
变量在各组出现或发生的次数称为频数,各组频数与总频数之比叫做频率。
ArcGIS中频数统计分析工具Frequency(ArcToolbox>Analysis Tools >Statistics>Frequency)。采用该工具进行统计时,其目的往往不在于统计频数本身,而在于对某些属性项进行分类求和(如面积和周长)。
图3.33 频数统计工具Frequency
(2)平均数(Mean)
1)简单算术平均数。
2)加权算术平均数。
3)调和平均数。又称倒数平均数,是各个数据的倒数的算术平均数的倒数
4)几何平均数。当数据以环比的形式出现时,通过计算比率的几何平均值(连乘开方)来反映平均变化情况。
(3)中位数(Median)
对于有序排列的数据集,位于中间位置的数据即为中位数。中位数可以代替算术平均数反映某种现象变化的一般水平,不受极端值的变化影响。
(4)众数(Majority)和寡数(Minority)
众数是在一个数据集或一组变量中出现次数最多的数据或变量。
寡数是在一个数据集或一组变量中出现次数最少的数据或变量。
2.数据的离散特征值
(1)极值和极差(Extremum and Range)
极值是一组数据中的最大值(Max)和最小值(Min)。
极差是一组数据中最大值与最小值之差。
(2)离差(Deviation)
离差是指一组数据集中的某个数据与数据集均值之差,反应数据偏离平均值的程度。
若将离差绝对值求和取平均数,便得到离均差。
由于离差有正有负,为了避免正负问题,常采用离差平方和来反映总体离差情况。
(3)方差与标准差(Variance and Standard deviation)
样本方差:

标准差:

(4)变差系数(Variation coefficient)
变差系数是一个表示标准差相对于平均数大小的相对量,用来衡量数据相对变化的程度,可以更为客观地反映数据的离散状况。

(5)ArcGIS中的多元统计
Summary Statistics工具(ArcToolbox>Analysis Tools >Statistics>Summary Statistics)可以进行多元统计。具体来讲,它可以分类(Case field)对要素的不同属性(Statistic field)进行不同类型(Statistic Type)的统计。
图3.35 多元统计工具Summary Statistics
3.2.2.2统计图分析
ArcGIS菜单View>Graphs > Create Graph,打开统计图创建工具,在Graph type可选择不同的统计图类型)。
1.柱状图
柱状图是一种以长方形的长度为变量来进行图形表达的统计报告图,它由一系列高度不等的纵向条柱表示数据分布的情况,每个条柱只代表一个属性值。它通常有利于较少数据集的分析,直观地反映不同对象的数据差异。

图3.36 ArcGIS中柱状图的制作
2.直方图
根据属性数据的某一属性特征值的分布区间将其标识在二维坐标系中,一个坐标轴代表了属性特征值的值域,另外一个坐标轴代表了对应每一属性特征值的数目。直方图可以很好地反映属性数据的分布趋势。

图3.37 ArcGIS中直方图的制作
3.折线图
将属性数据标识在二维坐标系中,然后沿着一个坐标轴的方向,将这些属性数据连线,就构成了折线图。它可以反映一种属性随着另外一种属性连续变化的发展动态及趋势。同时,通过折线图可以很容易地确定数据的范围、极值、间距、异常值等。
-
图3.38 ArcGIS中折线图的制作
4.散点图
以属性数据的两个属性特征值作为x、y坐标轴,将属性数据标识在二维坐标系中,形成二维空间中的一些离散点。通过判断这些离散点的相互关系,进而确定两种属性的相互关系。当存在大量数据点时,散点图的作用尤为明显。

图3.39 ArcGIS中散点图的制作
5.饼状图
在表示属性数据的某些特征时,将一个饼状图分为若干扇形,每个扇形代表了一个属性数据,该扇形的面积或弧长则表示该属性数据的一个属性特征在众多属性数据中所占的比重。属性数据越多,用饼状图表示的效果越差。

图3.40 ArcGIS中饼状图的制作
3.2.2.3 常用的数理统计方法
1.相关分析与回归分析
(1)相关分析
相关分析是研究两个或两个以上变量之间的相关性质及相关程度的一种统计方法。
相关关系按相关程度可划分为完全相关、不相关和不完全相关;按相关方向可划分为正相关和负相关;按相关表现形式可划分为线性相关和曲线相关。
相关性分析可通过相关表、散点图、相关系数进行度量。其中相关表和散点图只能粗略反映变量间相关关系的方向、形式和密切程度,而相关系数可以确切反映相关关系的密切程度。
Pearson相关系数可表示为:

Pearson相关系数的取值范围为[-1,1]。相关系数的绝对值越大(越接近于1或-1),相关性越强;相关系数越接近于0,相关性越弱。相关系数的正负反映要素之间的正相关或负相关。
(2)回归分析
回归分析是指对具有相关关系的多个变量,根据其关系形态,选择一个合适的数学模型,用来近似的表示多个变量间的平均变化关系的一种统计分析方法。
1)一元线性回归分析

2)多元线性回归分析

3)地理加权回归分析
地理加权回归模型(Geographically weighted regression,GWR)扩展了线性回归模型,其回归系数不再是全局性的统一单值,而是随着空间位置变化的,从而可以反映解释变量对被解释变量的影响随空间位置而变化的情况。
地理加权回归的实质是局部加权最小二乘法,其中的权为待估点所在的地理空间位置到其他各观测点的地理空间位置之间的距离函数。

4)趋势面分析
趋势面分析是利用数学曲面模拟现实世界地理要素的空间分布及变化趋势的一种分析方法。它实质上是通过回归分析原理,运用最小二乘法拟合一个曲面函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。
一般采用的趋势面函数多为二次曲面,因为趋势面的次数过高,会导致解的奇异,并增加计算的复杂度。
2.主成分分析
由于地理要素中许多变量通常都是相互关联的,所以有必要在众多的要素中,提取重要的要素,减少不重要的信息,消除冗余信息,从而进行有效的分析研究,这时就需要应用主成分分析法(Principal Component Analysis,PCA)。它是一种用较少数量的特征对样本进行描述以达到降低特征空间维数的分析方法,本质上是K-L变换。
(1)基本原理
(2)计算步骤
1)计算协方差矩阵
2)计算特征值及相应的正交化单位特征向量
3)计算主成分贡献率及累计贡献率
4)计算各主成分得分
3.层次分析
层次分析法(Analytic Hierarchy Process,AHP)把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,然后利用数学方法综合专家意见并给出各层次各要素的相对重要性权值,作为综合分析的基础。
(1)层次分析法的结构
1)目标层(Z)。表示解决问题的目标或理想结果,例如选择旅游目的地。
2)准则层(C)。表示采用某些措施和政策来实现预定目标所涉及的中间环节,一般又称为策略层或约束层。例如,选择旅游目的地要考虑景色(C1)、费用(C2)、居住(C3)、饮食(C4)、旅途条件(C5)等方面的因素。
3)方案层(P)。表示决策的方案或解决问题的措施和政策。例如,最后决定选择的旅游目的地。
(2)构造判断矩阵(成对比较)
层次分析法在确定各层次各因素之间的权重时,不把所有因素放在一起比较,而是两两相互比较。全部比较结果可以用成对比较矩阵表示。
(3)层次单排序及一致性检验
层次单排序是指对于上一层某因素而言,本层次各因素的重要性排序。
(4)层次总排序
4.聚类分析与判别分析
(1)聚类分析
聚类分析根据地理事物的属性或特征的相似性和差异性,用数学方法逐步将性质相似度较大的个体聚为一类,将性质差别度较大的归入各个不同的类别,直到把所有的类别聚合起来,形成一个能反映个体之间亲疏关系的分类系统(或称谱系图)。根据这一系统,可以将众多的个体进行不同的类别划分。
(2)判别分析
判别分析是根据地理对象的数量特征判断其类型归属的一种统计方法。它与聚类分析虽然都同属分类问题,但不同的是,判别分析是监督模式识别的一个重要分支,它是通过预先确定一个明确的分类标准,然后再将待分类的地理实体安排到合理的类别位置上的方法。
3.2.2.4 应用统计分析
1.空间自相关分析
空间自相关是指一些变量在同一个分布区内的观测数据之间存在潜在的相互依赖性。空间自相关分析研究地理空间中某空间数据与其周围数据间的相似性及相关程度,进而分析这些空间数据在空间分布上的特性。它是认识空间分布特征、选择适宜的空间尺度来完成空间分析的最常用的方法。
Moran指数:

Geary系数:

2.景观格局分析
(1)景观多样性指数
景观多样性指数是反映一个区域内不同景观类型分布的均匀化和复杂化程度的指标。当景观是由单一要素构成时,景观是均质的,其多样性指数为0;当景观由两个以上的要素构成时,各景观类型所占比例相等,则景观的多样性最高;随着各景观类型所占比例差异增大,景观的多样性开始下降。
辛普森(Simpson)多样性指数表示为:

香农-威纳(Shannon-Wiener)多样性指数表示为:

(2)景观优势性指数
优势性指数表示景观多样性对最大多样性的偏离程度,或描述景观由少数几个主要的景观类型控制的程度。优势性指数越大,则表明偏离程度越大,即组成景观的各景观类型所占比例差异大,或者说某一种或少数景观类型占优势。

(3)景观均匀性指数
景观均匀性指数反映景观中各斑块在面积上分布的不均匀程度,通常以多样性指数的实测值和最大多样性值的比值来表示。

(4)景观破碎化指数
破碎度表征景观被分割的破碎程度,反映景观空间结构的复杂性,在一定程度上反映了人类对景观的干扰程度。

(5)干扰度和自然度
干扰度反应人类的干扰程度大小。干扰度越小,越有利于生物的生存。

景观指数计算软件:Fragstats