1
模式识别与智能计算的MATLAB实现
1.16.2 14.2 样本特征的初步分析

14.2 样本特征的初步分析

在进行特征选择和提取时,一般都需对原始数据进行预处理,即指对原始数据实施任何一种变换。变换后的变量通常称为特征,以区别于原始变量。对数据实施预处理的类型依赖于问题的类型,如数据的来源,来源于同一仪器或不同的仪器的测量数据预处理方法是不同的。

1.丢失数据的弥补

一个量测数据对应于n维空间的一个点。要将点描述在n维空间中并进行比较,那么此点在表征空间的各坐标轴上均应有坐标。如果由于某种原因丢失某一数据,那么就不能在多维空间正确描绘样本所处的区域。很明显,用“0”来代替丢失的数据是不恰当的。如果数据存在丢失,那么在进行模式识别之前,必须用适当的技术来弥补丢失的数据。

最常用的数值弥补技术是均值弥补,即用数据集中变量的均值来代替丢失的数据。另一种技术则是用类的主成分模式来估计丢失的数据,这样弥补的数据具有更强的相关性。还有一种最为保守的数据弥补方法,就是随机弥补法。它是通过随机地从适当类的量测数据中抽取数据来弥补丢失的数据,但这样做可能会导致较差的计算结果。

不论采用什么方法,丢失数据的弥补将改变数据结构,并且限制了模式识别算法的成功应用。均值弥补和主成分弥补会使样本的类更为相似,而随机弥补法则增大了类别间的差异。任何一种解决丢失数据问题的方法或技术仅是找到了一种使损失最小的方式,所以实验时应注意数据的完整性。

2.数据的预处理

(1)中心化变换

一般都是希望数据集的均值与坐标轴的原点重合,此时可采用中心化变换方法,以改变数据相对于坐标轴的位置。其运算就是从数据矩阵的每一个元素中减去该元素所在列的均值,即

alt

其中,xik为原始数据;alt为n个样本的均值。

例14.2 有一原始数据阵,其值为X=[0.61 1.03;0.54 0.96;0.21 0.51;0.78 1.38],试对其进行中心化处理。

alt

对变换前后的数据进行作图,可得图14.2。从图中可看出,经中心化处理后数据点经过坐标的原点。

alt

图14.2 数据的中心化变换

(2)归一化处理

归一化处理的目的是使数据集中各数据向量具有相同的长度,一般为单位长度。归一化公式为

alt

归一化处理能有效地去除由于量测值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。

(3)正规化处理

正规化处理使数据点布满数据空间,常用的正规化处理为区间正规化处理。其处理方法是以原数据集中的各元素减去所在列的最小值后再除以该列的极差。

alt

这种方法可将量纲不一、范围不同的各种变量表达为值均在0~1范围内的数据。这个方法既适用于同类型、同范围的原始数据,也适用于不同数据类型和范围差别较大的数据集的预处理。但是这种方法对界外值十分敏感,若存在界外值,则处理后的所有数据近乎相等。

例14.3 X=[0.96 79.7;6.43 32.2;2.03 10.8;1.71 18.8;1.13 35.5;1.29 7.0],试对其进行正规化处理。

alt

对变换前后的数据作图14.3,可以看出因为原始数据中存在一个界外点,所以变换后数据的y坐标值相差不大。

alt

图14.3 数据的正规化处理

(4)标准化处理

标准化处理能去除由单位量纲不同所引起的权重,但这种方法对界外点不像区间正规化那样敏感。

标准化处理也称方差归一化。它是将原数据集各元素减去该元素所在列的元素的均值再除以该列元素的标准差,经标准化处理后的数据集,变量的权重相同,均值为0,标准差为1。

alt

其中,xik为原始数据;alt为n个样本的均值。

(5)离群点的删除

在原始数据阵中,可能有个别数据离群较远,这种数据称为异常值,又称为可疑值或极端值。如果这是由于数据测量过程中过失造成的,则这个数据应舍去。但若非这种情况,则对异常值不能随意舍去,特别是当测量数据较少时,异常值的取舍对数据分析结果有可能会产生很大的影响,必须慎重。对于不是因为过失而造成的异常值,应按一定的统计学方法进行处理。常用的是较为简单的4alt、Q检验法和Grubbs法。

下面是Q检验法的dix函数:

alt

(6)野点的检测

野点是数据集合中偏离大部分数据所呈现趋势的小部分数据点,又称劣值或奇异值。由于与正常状态相差太大以至于产生怀疑,认为它是由一个不同的机制产生的。如在机械设备的运行状态监测中,野点对应着一个奇异状态,往往表明该设备运行在不正常的状态。在通常的处理方法中,野点往往作为噪声进行处理,并由此提出各种所谓“稳健(robust)”的处理方法,用于克服野点的干扰,甚至将野点从数据集中剔除。但是事实上,野点能提供比正常数据更多、更重要的信息,是发现新知识、确定新状态的有力手段。

目前,野点检测的方法有以下几种:

①常规方法,包括基于统计、距离和偏离等参量的野点检测方法。

②计算包括全部正常数据点的最小区域的边界,边界以外的数据点则视为野点。

③通过一个单一分类器输出的不稳定性来检测野点。

从模式识别角度出发,野点检测可视为一类特殊的模式识别问题,即所谓的一类分类问题,从这一点考虑,野点检测实际上与正常域(正常状态数据点的范围)的确定属于同一个问题。

对于一般的分类问题,考虑的是如何将各种类别有效地分开,而在野点检测中,分类的目标是如何准确地描述一类对象,在此之外大范围的其他对象则被视为野点。因此,野点检测有时又被称为数据描述或一类分类问题。

(7)加权重

加权重仅在有管理的方法中使用,其方法可用一定的经验式统计,给比较重要的变量赋予较大的权重。

(8)转换

当变量的动态范围较大时,可采用alt、lgx或lg(x+常数)等方法进行转换,也可采用诸如傅里叶变换、小波变换等方法进行变换。

(9)组合

将原来的变量,按一定的方式,如变量相加、变量相减等进行组合以产生新的变量。