1
模式识别与智能计算的MATLAB实现
1.4.3.4 2.3.4 SIMCA方法
2.3.4 SIMCA方法

SIMCA(Soft Independent Modelling of Class Analogy)属于类模型方法,即对每类构造一主成分回归模型的数学模型,并在此基础上进行样品的分类。

有如下的数据矩阵:

alt

其中,N为样本数;M为变量,即维数;Q为类数。

对于某一类样本,主成分回归模型为

alt

其中,α为变量i的均值;A为主成分数;β和θ是为使偏差ε达到极小的参数。

对于多类样本,则主成分回归模型为

alt

其中,q表示类。

SICMA方法的计算步骤如下:

①数据标准化;

②主成分数A的确定;

③主成分模型中β和θ等参数的确定。这两个参数可以由矩阵Z(q)′Z(q)对角化求得。Z(q)矩阵为第q类训练集中每一个变量减去平均值后所形成的数据阵,Z(q)′为其转置矩阵,alt可由Z值减去公式中β、θ和乘积项得到,则方差可由下式求得:

alt

一旦每一类中上述参数求出之后,即可运用主成分回归模式去预测未知样本。

④未知样本预测。用主成分回归模式去拟合未知样本,拟合方法与一般多元回归相同。此时alt为因变量,alt(a=1,2,…,A)为自变量,即

alt

其中,Ca为回归系数。样本的拟合程度可表示为

alt

判别样本P是否为q类,可用F显著性检验,其公式为

alt

将F值的计算值与临界值(自由度分别为(M-Aq)和(nq-Aq-1)(M-Aq))相比较,若F<F临界,则样本P归入q类;否则将拟合于其他类,此时F检验性公式为

alt

⑤两类间相似度。用类r中的所有样本去拟合类q主成分模型,则可以得到类间的相似度测量。类r和类q间的方差为

alt

将计算得到的方差与③中计算得到的方差相比较,可以得到两类间相似度的测量。

⑥变量重要性的测量。变量在判别中的重要性可由残余方差与原始数据的方差相比较而得到。

若原始数据经过标准化处理,则所有变量i的方差相同,即

alt

由此可得

alt

Ui值越大,即残余方差与原始数据方差的比值越小,该变量在主成分模型中的作用就越大。

⑦样本相关性测量。与变量相同类,即将样本的残余方差计算式(④中)与某一类的整个方差计算式(③中)相比较(F检验),其残余方差越小,该样本与此类的相关性越大。