1
模式识别与智能计算的MATLAB实现
1.14.3.2 12.3.2 非线性映射
12.3.2 非线性映射

与线性映射一样,非线性映射(Non-Liner Mapping,NLM)的目的也是将m维空间的点投影到低维空间如二维或三维空间,以使人们易于观察样本的数据结构。

设在m维空间矢量xi与xj的距离为

alt

在二维空间中,矢量yi和yj的距离为

dij=dis(yi,yj

在NLM方法中,多维空间中的点经过投影(即在低维如二维或三维空间中)力图保持点与点间的距离不变,在理想情况下alt。但在事实上这是不可能的,因为经过投影后必然会产生误差:

alt

为此定义误差函数:

alt

通过不断地调整在d空间中的n个矢量,使E达到最小值或预定值。此时y即为x在d维空间中的转换矢量。有关非线性映射的实际应用见本书的第9章“遗传算法及模式识别”。

例12.1 对太子河本溪市区段河道的15个采样点采集的样本进行了7种污染元素的分析,并根据测定结果和指数公式求出了各采样点的各种重金属的地积累指数,即分级结果(见表12.2),表中的0~6级表示水质污染程度从无污染到极强污染。请对此进行定量评价。

表12.2 各采样点重金属污染元素的地积累指数及其分级

alt

:为了减少篇幅,用前面介绍的每种方法对此例进行分析。

①数据的表示,见图12.4。

alt

图12.4 数据的可视化表示

alt

②模式识别,可绘制图12.5所示的树形图、雷达图和星座图,并得到雷达图中各测试点样品的面积及周长(见表12.3)。从这些图及数据可看出,测试点(2,3)、(4,5,6,7)、(8,15)、(12,13)等基本上属于一类,这些测试点的设置值得商榷。

alt

图12.5 各测试点数据的聚类分析图

表12.3 各测试点数据雷达图的面积及周长

alt

alt

例12.2 对某河段的九个断面进行采样,监测BOD5、COD、DO、T-N等四个指标,对河流总体的有机污染现状进行监测,得到表12.4的结果,试用线性映射方法分析测定结果。

表12.4 河流水质监测平均值 mg/l

alt

alt

从两个主成分的映射图12.6中可清楚地看出,此测量数据可分成三种类别。

alt

图12.6 两个主成分图