1
模式识别与智能计算的MATLAB实现
1.16.4.2 14.4.2 特征提取的方法
14.4.2 特征提取的方法

选择特征的方法可分为物理(或化学)的和数学的两种。前者是基于对所处理的信息的本质或主要影响因素的理解。对于不同领域的模式识别,不同专业的人会根据自己的专业知识和实际经验,选择适当的特征。但有时由于各种条件的限制,不能很好地掌握所处理信息的内涵和本质,因此人们通常根据物理(或化学)模型尽可能把一切可能有关,又易于获得数据的特征都提出来,然后借助于数学知识对这些特征进行分析,逐步删除那些不重要的特征,保留对分类贡献大的特征。数学方法筛选特征量的目的就是寻求一组数目少,而对分类有效的特征量组,然后再运用相关专业知识分析处理结果,删除那些对分类影响不大,并且没有具体物理(或化学)意义的特征。

特征的选择在模式识别中尽管研究最多,但尚无一通用的理论可以遵循。目前,在模式识别中应用较广的特征选择方法有下列几种。

(1)偏差权重法

对于分类而言,偏差大的变量比偏差小的变量更重要。特征的标准偏差为

alt

其中,alt为特征i的均值。

很明显,同一类样本之间的方差即类内方差(Sj,I)较小,而类与类之间的方差即类间方差(Sj,O)较大,因此可定义权重因子:

alt

显然,wj越大,特征j就越重要,应当优先选择。

(2)Fisher比率法

特征j的Fisher比率Fj

alt

其中,altalt分别为类1和类2中变量的均值,Sj,1和Sj,2分别是类1和类2中特征的标准偏差。Fj值越大,意味着此特征越重要,应优先选择。

(3)概率比率法

概率比率Rj的定义为

alt

其中,Pj,1和Pj,2分别为第j个特征在类1和类2中出现的概率。根据此值的大小可判定:如果某特征在两类分类中均不出现或出现次数很少或出现概率相等,则可以剔除。Rj绝对值越大,表明该特征量在同类中概率差最大,应优先选择。

(4)逐步判别法

逐步判别分析为模式识别的一种方法,同时,该种方法亦用于变量的选择,特别是两变量共线,即相关系数较大时,用逐步判别的分析可以消去不合适的变量。

(5)学习机械法

学习机械法也是模式识别的一种方法,同时,也可以用于特征的选取。在特征选取时,首先将判别函数系数赋予任意初值,如均为“1”,然后逐步校正,直到不能够进一步改善为止。再将值均赋予“-1”,重复上述过程,也直到不能够进一步改善为止。在两次结果中,剔除符号有改变的特征,重复上述全部过程,直到再无特征可剔除为止。

(6)主成分分析法

初选的特征向量可能存在相关,此时亦可采用原特征的线性组合,以形成新的特征向量,并根据它们的特点,选取与问题最相关的特征参与以后的分类。

在进行特征间的线性组合时,可先采用主成分分析得到相互正交的本征矢量,然后将本征矢量作为原变量的线性组合,根据本征值的大小可以选择少量的本征矢量作为新的特征。

(7)其他方法

利用遗传算法、神经网络、粗糙集、核函数方法等各种算法对全部特征进行分析,以提取最合适的特征数目及种类。具体的算法原理及应用见各相关章节的内容。