4.5 地统计分析
地统计是统计分析的一种,它弥补了经典统计学忽略空间方位的缺陷,凡是研究那些空间数据的结构性和随机性、相关性和依赖性、空间格局与变异、最优无偏内插估计,或模拟这些数据的离散性、波动性,均可用地统计学的相关理论或方法解决。通过对变异函数、克里金估计以及随机模拟方法的深入扩展,地统计已经成为空间统计学的核心内容,不仅能够提供插值,还可以衡量插值结果的不确定性。
地统计插值认为任何在空间连续变化的属性都是非常不规则的,不能用简单的平滑数学函数进行模拟,但可以用随机表面给予较恰当的描述。克里金插值(Kriging)是地统计学方法的一种,建立在统计模型包含空间自相关等理论基础之上。与IDW、Spline等确定性插值方法(直接使用预测点周围采样点数值或根据数学函数进行插值)不同的是,Kriging方法引入了包括概率模型在内的统计模型,预测结果将与概率联系在一起。Kriging方法与IDW方法有些相似,两者都采用对周围采样点加权的方法对预测点进行插值计算,不同的是Kriging方法的权重值不仅需要考虑预测点与周围采样点数据的空间距离关系,还要考虑已知点的位置以及已知点的整体空间分布和排列,揭示数据的空间自相关关系。
4.5.1 地统计与数理统计
4.5.1.1地统计
地统计学(Geostatistics,也称地质统计学)以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关性和依赖性的自然现象。通过对描述空间模式和插值方法的改进,其不仅能够生成预测面,还能给出预测值的误差。它是一种分析空间位置相关地学信息的经验性方法,通过分析样本间的内在分布规律,探究合适的模型对区域范围内的采样值进行估计并给出其不确定性。对地统计的研究主要包括区域化变量、变异分析和空间估值几个方面。
1.区域化变量
当一个变量呈现出空间分布时,称之为“区域化”,将这个变量称之为“区域化变量”,这种变量常常反映某种空间现象的特征。用区域化变量描述的现象,称之为区域化现象。它具有两方面的含义,即观测前是一个随机变量,观测后是一个空间三元函数值或空间点函数值,具有显著的随机性与结构性,其随机性体现在它是一般的随机函数,结构性体现在它的函数值Z(x)与Z(x+h)存在某种程度的自相关。对某一具体的区域化变量而言,它还具有空间的局限性、不同程度的连续性、不同类型的各向异性等属性。
首先,区域化变量的空间局限性表现在:区域化变量被限制于一定空间范围,在空间范围内,该变量分布明显,在范围之外,该变量表现不明显或几乎为零。
其次,区域化变量的连续性表现在:不同的区域化变量具有不同程度的连续性,这种连续性通过区域化变量的半变异函数来描述。
再次,区域化变量的各向异性表现在:当区域化变量在各个方向上具有相同性质时称各向同性,否则称为各向异性。对各向同性或各向异性的分析,主要考虑区域化变量在一定范围内样点之间的自相关程度,当超出这一范围之后,相关性变弱甚至消失。
因此,基于区域化变量的特殊性,G.Matheron在60年代提出了空间协方差函数和变异函数,用于研究区域化变量的随机性与结构性。
2.变异分析
(1)协方差函数
协方差又称半方差,表示两随机变量之间的差异。随机场
在空间点
和
处的两个随机变量
和
的二阶混合中心距定义为随机场
的协方差函数,即
4.42
(2)变异函数
变异函数又称变差函数或变异距,是地统计分析的特有函数。
4.43
将
称为“半变异函数”,而将
称为“变异函数”。
协方差函数和半变异函数是地统计学中以区域化变量理论为基础建立起来的两个最基本的函数,直观来看,
和
之间存在的相互关系并不取决于它们的具体位置,而依赖于两点间的距离。但要估计变异函数的值,需要若干对
和
的值,但是,在地统计学中,空间抽样只能得到一对这样的数值,为了能够使用变异函数,因此,区域化变量
必须满足二阶平稳假设和本征假设。
协方差函数和变异函数实质上都是用于估计误差的函数,协方差函数图和变异函数图都是误差的曲线分布图。变异函数与协方差函数表现了两事物间的空间相关性,当两事物之间的距离较小时,也就是当两事物间的距离满足
时,区域化变量是空间自相关的,而超出此范围后自相关不存在,这里的间距
就是变程(Range),它反映了区域化变量
空间变异尺度或空间自相关尺度。当空间自相关消失(即
)时,变异函数
趋于一个极限值,这个极限值也就是基台值(Sill),基台值是系统或系统属性中最大的变异。除此之外,变异函数还具有块金效应与各向异性。理论上,在采样点间的距离为0时,半变异函数应为0,但由于测量误差和内部变异的存在,半变异函数并不为0,而等于一个常数
,这种现象在地统计学中被称为块金效应,常数
也就是块金常数或块金方差。偏基台值就是基台值与块金值的差值。
在区域化二阶平稳性条件下,协方差函数和变异函数满足
。
|  |
| 图4.84 半变异函数 图4.85 协方差函数 |
对于区域化变量,变异函数
不仅与间距
有关,还与方向有关。如果空间相关性具有方向性,那么某一方向上的变异就比其他方向上的变化更快,用各向异性来描述空间相关的方向差异。
变异函数常用于研究系统或系统属性空间分布格局和空间异质性。空间异质性是用来描述系统或系统属性在空间上的复杂性和变异性。常用各向异性、基台值、块金值和分维数
对其进行描述。分数维表示的是变异函数曲线的曲率,可以作为随机变量的量度,分维数
越大,表明空间自相关部分引起的空间异质性越高;各向异性越高,空间异质性程度越高;块金值与基台值之比越高,说明随机部分引起的空间异质性程度越高,如果比值接近于1,则该变量在整个尺度上具有恒定的变异。同时,在不同尺度上,同一景观的某一变量的自相关程度也相差甚大,在景观生态学中这种尺度的确定有助于区别不同的景观格局所对应的生态学过程。
3.ArcGIS中的地统计
ArcGIS中的地统计分析扩展模块(GeostatisticsAnalysis)是一种运用地统计分析方法创建连续表面的工具集,为空间数据探测、确定数据异常、优化预测、评价预测的不确定性和生成数据面等工作提供了多种多样的工具,能够完成探究数据可变性、查找不合理数据、检查数据的整体变化趋势、分析空间自相关、多数据集之间的相互关系,以及利用各种地统计模型和工具来做预报、预报标准误差、计算大于某一阈值的概率、分位数图绘制等工作。它由三大工具组成,包括探索性数据分析工具、地统计向导和一组地理处理工具。
克里金插值(Kriging)是地统计分析工具里的主要插值方法,它是建立在统计模型之上的包含空间自相关等理论的一种插值方法,是在变异函数理论和结构分析基础之上,在有限区域内对区域化变量进行无偏最优估计的一种方法。该方法不仅考虑了待预测点与邻近样点数据的空间距离关系,还考虑了各参与预测的样点之间的位置关系,充分利用了各样点数据的空间分布结构特征,对未知样点进行的一种线性无偏最优估计。
采用克里金方法进行插值一般分为两步。第一步是对采样点进行空间结构量化分析,即在半变异函数分析的前提下,为样点数据拟合一个空间独立模型;第二步是利用第一步拟合的半变异函数、采样点数据的空间分布及样点数据值对未知点进行预测。
4.5.1.2数理统计
数理统计是一种以概率论为基础、研究随机现象的统计方法,它要求统计变量是绝对的随机变量,每个样本必须保持独立。它采用频率分布图来研究样本的各种数字特征,即使进行无限次重复试验,该变量的取值仍按照某种概率分布而变化。地统计学是在此基础上,分析变量与空间位置相关关系的一门科学,其研究的变量并不能保证每个变量间是绝对的独立,且不可进行重复试验,每个区域化变量的取值仅有一次,这也是地统计学与传统统计学的主要区别。
4.5.2 空间数据探索
探索性空间数据分析(Exploratoryspatial data analysis,ESDA)是一种用定量分析探索空间数据,让数据说明其本身特征的分析技术。
4.5.2.1刷光(Brush)与链接(Link)
刷光指在ArcMap数据视图或某个ESDA工具中选取对象,被选择的对象高亮度显示。
链接指在ArcMap数据视图或某个ESDA视图中的选取对象操作。在所有视图中被选取对象均会执行刷光操作。当某些ESDA工具中执行刷光时,ArcMap数据视图中相应的样点会被高亮度显示。当在半变异函数/协方差云中刷光时,ArcMap数据视图中相应的样点对及每对之间的连线均被高亮显示。反之,当样点对在ArcMap数据视图中被选中,在半变异函数/协方差云中相应的点也将高亮度显示。
4.5.2.2直方图(Histogram)
直方图工具提供了一种对数据中单变量的描述,能够得到感兴趣数据集的频率分布特征以及一些概括性的统计指标。它可以用于对大量样点数据进行整理加工,找出其统计规律,分析数据的分布形态,以便对其总体分布特征进行推断。
4.5.2.3分位数图(Quantile-quantileplots)
分位数图(QQ图)也是一种用来检验样点数据分布的统计图。利用QQ图,可以将现有数据的分布与标准正态分布对比,如果数据越接近一条直线,则代表它越接近于正态分布。ArcMap中的QQ概率图分为两种类型:正态QQ图和普通QQ图。
正态QQ图(NormalQQ Plot)主要用来评估具有N个值的单变量样本数据是否服从正态分布。
普通QQ图(GeneralQQ Plot)是用来评估两个数据集分布的相似性。
|  |  |
| 图4.89 正态QQ图的示意图 | 图4.90 普通QQ图的示意图 |
4.5.2.4泰森多边形图(Voronoi图)
Voronoi图是由在样点周围形成的一系列多边形组成,通过这些多边形可以了解到每个采样点控制的区域范围,也可以体现出每个采样点对区域内插的重要性。其基本原理是:多边形内任何位置距这一样点的距离都比到其他样点的距离要近。通过这种邻域定义,可以完成局部变化的统计,例如,通过计算相邻多边形内采样点的平均值可得到该区域的局部平均值,且这种方式可以在所有的多边形邻域范围内重复计算,最后得到区域高低值的可视化比较。利用Voronoi图可以找出一些对区域内插作用不大但可能影响内插精度的采样点值,并将其剔除。例如根据相近相似原理,用聚类或熵的方法生成的Voronoi图可识别可能的离群值。
4.5.2.5趋势分析(TrendAnalysis)
趋势分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。趋势分析工具在观察一个物体的空间分布时具有简单、直观的优势,还可以找出拟合最好的多项式对区域中的散点进行内插,得到趋势面。进行趋势分析的关键在于选择合适的角度,ArcGIS中的趋势分析工具允许用户从三维视角分析采样数据集的全局趋势,如果能够准确识别和量化全局趋势,那么在ArcGIS地统计建模中就可以方便的剔除全局趋势,从而准确的模拟短程随机变异。
4.5.2.6方差变异分析
方差变异分析包括半变异/协方差函数云(TheSemivariogram/Covariance Cloud tool)和正交协方差函数云(TheCrosscovariance Cloud tool)。
半变异/协方差函数显示了数据集中所有成对样点位置的半变异值和协方差值,并把它们用两点间距离函数图来表示。半变异/协方差函数云图可用来检查空间相关性的局部特征,并寻找局部离群数据。一般地,半变异函数值越小,就越相似。
正交协方差云图表示的是两个数据集中所有样点对的理论正交协方差,把他们用两点间距离的函数来表示,并以此函数作图,称正交协方差函数云图。它可以用来检验两个数据集的空间关联性的局部特征,并寻找两个数据集间的空间相关性的变化情况。协同克里金插值分析就是利用这种相关特征增强建模效果。
4.5.3 克里金插值
4.5.3.1克里金插值基础
克里金插值又称空间局部插值法,是以空间自相关性为基础,利用原始数据和协方差函数的结构性,对区域化变量的位置采样点进行无偏估值的插值方法。在地统计分析里,克里金方法是建立在平稳假设的基础之上的,它要求数据值具有各向同性。
在进行克里金插值前,首先采用直方图法和QQ图法对数据的分布进行检验或通过数据变换(对数变化、幂变换和反正弦变换等),使其服从正态分布。其次,还需采用直方图法、半变异/协方差函数云或Voronoi法查找数据集中的离群值,这些离群值可能来自于真实的异常值,也有可能来自测量误差或记录误差。若为真实异常值,那就需要分析其异常原因,否则在插值前就需要删除这些异常值。然后分析其是否存在趋势,选择合适的克里金插值方法进行插值。
4.5.3.2普通克里金插值(OrdinaryKriging)
普通克里金是区域化变量的线性估计,它假设数据变化呈正态分布,认为区域化变量Z的期望值是未知的常量。插值过程类似于加权滑动平均,权重值的确定来自于空间数据分析。普通克里金法是最常用的方法,它不仅考虑了样本点的空间相关性,还给出了估算值的精度误差。但其不足之处在于协方差计算量大,且依靠经验选择协方差理论函数模型。
进行普通克里金插值分析需要注意的是,对不服从正态分布的数据集要选择合适的转换模型进行数据变换,对存在趋势的数据集要在Orderof trend removal中选择去除趋势的阶数,消除趋势影响,同时还要注意协方差/半变异函数模型的合理选取和搜索邻域的设置。
4.5.3.3简单克里金插值(SimpleKriging)
简单克里金也是区域化变量的线性估计,它假设数据变化呈正态分布,认为区域化变量Z的期望值为已知的某一常量。简单克里金法可通过半变异/协方差云模型来检验数据的空间相关性,对数据进行转换使其服从正态分布,并得到估算值的预测误差。相比普通克里金法,简单克里金法进行自相关分析的效果自然好得多。
4.5.3.4泛克里金插值(UniversalKriging)
泛克里金法的引入解决了区域化变量必须满足二阶平稳假设或本征假设的局限性,其假设数据中存在主导趋势,且该趋势可以用一个确定的函数或多项式来拟合。在进行泛克里金分析时,首先要分析数据中存在的变化趋势,获得拟合模型;其次,对残差数据进行克里金分析;最后,将趋势面分析和残差分析的克里金结果加和,从而得到最终结果。由此可见,克里金方法明显优于趋势面分析,泛克里金的结果也要优于普通克里金的结果。
4.5.3.5指示克里金插值(IndicatorKriging)
指示克里金是一种非参数方法,无需了解数据的分布类型,可减小异常值对插值结果的影响。在进行指示克里金分析时,需要设定合适的阈值(这将决定哪些预测值为0,哪些预测值为1)、选择合适的协方差/半变异模型和搜索邻域。
4.5.3.6概率克里金插值(ProbabilityKriging)
概率克里金是指示克里金的改进,不仅具有指示克里金非参数和无分布的特点,还减小了估计方差,提高了插值精度,降低了指示克里金的平滑作用,可用于分析那些空间分布连续的现象,如气温或空气质量的插值分析等。在ArcGIS中使用概率克里金插值可以创建概率图和标准误差指示图。
4.5.3.7析取克里金插值(DisjunctiveKriging)
析取克里金对数据要求较为严格,如果原始数据不服从简单分布(高斯或对数正态等),则可选用析取克里金法,它可以提供非线性估值方法。虽说析取克里金较普通克里金具有较好的预测效果,但其计算过程也较复杂,它要求所用的数据是具有空间连续性的点数据,且服从双变量正态分布。指示克里金可以看成是析取克里金法的一个特例。
4.5.3.8协同克里金插值(Co-Kriging)
协同克里金法把区域化变量的最佳估值方法从单一属性发展到两个以上的协同区域化属性。但它在计算中要用到两属性各自的协方差函数和交叉协方差函数,比较复杂,预测结果精度往往与工作量不相称,所以该种方法用得相对较少。
4.5.3.9含障碍的核插值(KernelSmoothing)
含障碍的核插值类似于局部多项式插值,但有两点不同。一是它考虑研究区域中的障碍,在接近于地形中的陡坎位置可以获得较为精确的估计。核插值是一阶局部多项式插值法的一个变形,为了防止在计算过程中出现不稳定性,该方法使用一种类似于岭回归中的方法来估算回归系数。当评估值仅存在较小偏差且比无偏差评估值更加精确时,可以将其作为首选评估值。二是核插值模型使用两点间的最短距离。因此,位于指定的不透明(绝对)障碍的侧面上的点会通过一系列直线相连。
4.5.3.10含障碍的扩散插值(Diffusion Kernel)
含障碍的扩散插值法可以使用不同的成本表面修改插值(扩散)过程,以便更精确的表达研究对象的空间表面模型。扩散插值涉及到热方程的基本解,该方程描述热或粒子如何在同类介质中随着时间扩散。使用此方法得到的预测结果缓慢地在障碍周围流动。在没有障碍的情况下,通过扩散插值得到的预测结果与通过使用高斯核的插值法得到的预测结果大致相同。