1
模式识别与智能计算的MATLAB实现
1.7.4.1 5.4.1 投影寻踪分析
5.4.1 投影寻踪分析

投影寻踪分析(Projection Pursuit, PP)是分析和处理高维数据,尤其是处理来自非正态总体的高维数据的一种统计方法。PP的基本思想是把高维数据投影到1~3维子空间上,寻找能反映原来数据的结构或特征的投影,以达到研究、分析高维数据的目的。

传统的多元分析是建立在正态分布的基础上的,而实际上有许多数据并不满足这个假定,因此需要用稳健的、实用的方法来解决。但当数据的维数较高时,这些方法都面临三个方面的困难:一是随着维数的增加,计算量迅速增加,而且不可能将其画出可视的分布图或其他图形;二是维数较高时,即使数据的样本点很多,散在高维空间中仍显得非常稀疏。高维空间中数据的稀疏性使许多在一维情况下比较成功的传统方法也不能适用处理高维数据;三是在低维时稳健性很好的统计方法应用到高维空间,其稳健性就变差,因此需要对高维数据进行降维处理。

现在降维方法应用较多的有聚类分析、因子分析、典型相关分析等,但这些方法仅着眼于变量的距离,而忽略了不相关变量的存在,使人无法确定结果的正确性。

投影寻踪是根据实际问题的需要,通过确定某个准则函数,将高维数据投影到低维子空间,使得投影后的数据可以很好地进行分类或预测,并且信息损失最小。其中的关键是准则函数即投影指标的确定,它应能衡量投影到低维空间上的数据是否是有意义的目标函数,即应能找到一个或几个投影方向,使它的指标值达到最大或最小。

设X={x1,x2,…,xn}是n个p维向量,其分布函数记为Fx。设α∈Rp为一方向向量,满足αTα=1;X在a方向上的投影为Y,则Y=αTX。对于投影方向α,投影数据αTX的投影指标记为Q(Y)或Q(αTX),它有三种类型:

第Ⅰ类指标是位移、尺度同变的,即对任何α、β∈R,有

Q(αY+β)=αQ(Y)+β

第Ⅱ类指标是位移不变、尺度同变的,即

Q(αY+β)=∣α∣Q(Y)

第Ⅲ类指标是投影不变的,即

Q(αY+β)=Q(Y)

从计算角度,可以将投影指标分为密度型投影指标和非密度型投影指标。

1.密度型投影指标

计算时需估计投影数据的密度函数的投影指标称为密度型投影指标,常用的有下列几种。

(1)K-L绝对信息散度

K-L绝对信息散度可以很好地度量两个分布之间的距离。一般认为服从正态分布的数据含有的有用信息最小,因而人们感兴趣的是与正态分布差别大的结构。不同的高维数据在不同方向上的一维投影与正态分布的差别是不一样的,因此可以用投影数据的分布与正态分布的差别作为投影指标。

p(x)、q(x)间的绝对信息散度定义为

J(p,q)=∣KL(p;q)∣+∣KL(q;p)∣

alt

如果给出的是离散估计,则K-L的绝对信息散度的离散形式为

alt

(2)Friedman-Tukey指标

该投影指标为

QFT(a)=S(a)D(a)

其中,S(a)表示投影数据总体的离散度;D(a)为投影数据的局部密度。

(3)一阶熵投影指标

该投影指标为

QE(a)=-∫f(y)lgf(y)dy

(4)Cook投影指标族

设X为将多维数据中心化和球化后的投影数据,其分布函数为F(x),密度函数为f(x),令广义变换T为:R→R将X映射到Y,记Y的分布函数为F(y),密度函数为f(y),同时令g(y)为标准正态密度∅(y)的经T变换后的密度函数,Cook投影指标族为

alt

该投影指标的逆变换为

alt

(5)Hall投影指标

Hall投影指标为Cook投影指标族的一个特例,其形式为

alt

2.非密度型投影指标

不需要估计投影数据的密度函数的投影指标称为非密度型投影指标。这类指标可以大大降低计算的复杂度。其中最常用的是方差指标,即

Q(aTX)=var(aTx)

根据各种投影指标的定义可看出,投影寻踪指标的实质是度量一个分布与其同方差的正态分布间的距离。常用的度量方法是计算它们之间的负熵,即

alt

其中,σ是分布的标准差;p(x)是分布密度函数,它一般是未知的,必须由样本数据来估计,常用三阶、四阶累计量或Gram-Charlier展开式来估计

alt

其中,k3、k4是三阶、四阶累计量;Hi(x)是Chebyshev-Hermite多项式

alt

H3(x)=4x3-3x,H4(x)=8x4-8x2+1

δ(x)由下式定义

alt

据此还可以计算负熵的近似值

alt

投影寻踪分析的过程包括以下几步:

(1)数据预处理

为消除各指标值的量纲和统一各指标值的变化范围,需要对原始数据进行极值归一化处理。

设分类数据矩阵为

alt

其中,n为样品数;xij为每个样品测得m项指标(变量)的观察数据,i=1,2,…,n,j=1,2,…,m。归一化公式有

对于越大越优的指标,alt

对于越小越优的指标,alt

(2)构造投影指标函数

PP方法就是把m维数据{x*(i,j)∣j=1,2,…,m}综合成以a={a(1),a(2),…a(m)}为投影方向的一维投影值z(i)

alt

其中,a为单位长度向量。然后根据z(i)的一维散布图进行分类。

确定投影指标时,要求投影值z(i)在局部的投影点尽可能密集,最好凝聚成若干个点团,而在整体上投影点团之间尽可能散开。因此,投影指标函数可以表示成Q(a)=SzDz,其中,Sz为投影值z(i)的标准差,Dz为投影值z(i)的局部密度,即

alt

其中,Ez为序列z(i)的平均值,R为局部密度的窗口半径。在一定范围内不同的密度窗口取值,必然得到不同的投影方向向量,也即从不同方向观察数据样本特征,有可能得到不同的结果。所以R的选取既要使包含在窗口内的投影点的平均个数不能太少,避免滑动平均偏差太大,但又不能使它随着n的增加而增加太高,它可以根据试验来确定,在实际计算中可选取

rmax+m/2≤R≤2m

其中,r(i,j)表示样本之间的距离,r(i,j)=∣z(i)-z(j)∣,rmax=max[r(i,j)];u(t)为一单位阶跃函数,当t≥0时,其值为1,当t<0时其值为0。

投影指标的构造并没有固定的形式和标准,在实际应用中可以根据具体情况灵活选择,所构造的投影指标必须能够反映问题的特性,以达到对数据样本进行合理聚类的目的。

(3)优化投影指标函数

当各指标值的样本集给定时,投影指标函数Q(a)只随着投影方向a的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是能最大程度地反映高维数据某类特征结构的投影方向,因此可以通过求解投影指标函数最大化问题来估计最佳投影方向,即

最大化目标函数:maxQ(a)=SzDz

约束条件:alt

可以采用各种有效的方法进行优化,常用的是遗传算法。

(4)分 类

把所求得的最佳投影方向a*代入

alt

计算出各样本点的投影值z*(i),将z*(i)与z*(j)比较,二者越接近,表示样本i与j越倾向于分为同一类。若按z*(i)值从大到小排序,则可以将样本从优到劣进行排序。