1
模式识别与智能计算的MATLAB实现
1.7.5 5.5 核函数方法在科学研究中的应用

5.5 核函数方法在科学研究中的应用

例5.1 为了进行土壤分析、研究质量,取了20个样本,每个样本有4个指标:淤泥含量、黏土含量、有机物、酸性指标pH值。原始数据见表5.1。试对其进行主成分分析。

表5.1 原始数据表

alt

:MATLAB中进行主成分分析的函数为princomp。

进行主成分分析,如果各变量的数量级和量纲等存在较大差异,则需要首先进行数据标准化。在本例中数据差异较小,可以不进行标准化。

alt

其中pcs、newdata、var、t2分别为主成分、主成分得分、主成分方差及Hotelling's T2检验。

alt

从图中可看出,由第一个主成分所解释的方差占到总方差的90%以上,第三、四主成分所解释的方差可忽略,所以可以将四维的原数据矩阵降为二维的数据矩阵。

alt

alt

图5.3 主成分分析图

例5.2 确定城市防洪标准,就是综合考虑政治、社会、经济、文化和环境等众多不确定影响因素,选取城市所防御洪水的合适频率或重现期。有一城市,非农业人口不少于368万人,1915年曾发生过80年一遇的特大洪水,现需从20年、30年、50年和80年一遇4个城市防洪标准方案进行优选,各方案评价指标的优属度值如表5.2所列,试用PPC模型对该方案集进行优选。

表5.2 城市防洪标准方案集及其各参数值

alt

注:x1—对国际交往改革开放的影响;x2—对国际投资环境的影响;x3—对稳定社会的影响;x4—促进社会经济发展的影响;x5—保护人民生命财产安全;x6—施工占地居民搬迁及安置问题;x7—土地增加对城市发展的影响;x8—经济效用费用比;x9—投资回收期;x10—贷款偿还年限;x11—对改善美化环境的影响;x12—对维持生态平衡的影响。


:优化方法采用遗传算法,首先编写优化目标函数my8(a)。

alt

再编写约束文件my9(a)。

alt

在MATLAB工作空间输入下列命令:

alt

打开遗传算法的GUI,在Fitness function窗口输入@my8,在Number of variables窗口输入变量数目12,在约束条件(Constrainta)的Bounds中的Lower窗口中输入zeros(1,12),Upper窗口中输入ones(1,12),Nonlinear constraint function窗口中输入@my9。其他条件可以采用默认值,也可以作相应调整。然后单击Start按钮,就可以进行相应的计算。计算后得到的最佳投影方向a*

alt

并计算出各方案的投影值z*

alt

根据z*值可以得出最佳方案为方案4,即城市防洪标准取80年一遇,并且因为最佳方案与次优方案的投影值相差较大,有利于决策,这一点要好于模糊综合优选模型等其他方法。

例5.3 水质评价就是根据某些对水质影响较大的指标值,通过建立数学模型,对具体的水体质量等级进行综合评判。由于水质类型往往由多个非线性水质指标来决定,采用传统的数据分析建立水质评价模型时,会受到过于数字化的限制,难以找到数据的内在规律,此时也可以采用寻踪投影等级评价模型评价方法。

湖泊营养状态程度的评价标准见表5.3。现根据某湖泊的具体测量数据(见表5.4),判断其营养状态情况。

表5.3 湖泊营养状态程度的评价标准

alt

表5.4 某湖泊的测量数据

alt

:用与例5.2相似的方法及步骤,求出最佳投影方向a*alt,并计算出各类水质的投影值z*

alt

然后在MATLAB工作空间中输入

alt

打开曲线拟合工具箱的GUI,可以很方便地建立图5.4所示的湖泊水质营养化的投影寻踪模型为

y*=-7.97×10-8exp(10.29*z*)+8.088exp(-0.2087z*),R2=0.987

alt

图5.4 湖泊水质富营养化评价模型

对表5.4中的测量数据进行归一化处理,然后利用最佳投影值,求出各月水质综合评价投影值及相应的等级值:

alt

另外,最佳投影方向各分量的大小反映了各水质指标对水质等级的影响程度,值越大,则对应的水质指标对水质等级的影响程度越大。在本例中,由于最佳投影方向的各分量值比较接近,说明化学需氧量、总氮和总磷对水质等级的影响基本相同。

例5.4 某综合评价系统中有30个样本,每个样本由8个百分比指标表示,见表5.5,试用KPCA法对其进行降低处理。

表5.5 某综合评价系统样本数据集

alt

alt

:直接采用一般的PCA算法,得到前4个特征值及累积贡献率。

alt

第一主元所占比例太低,降维的效果不理想。

采用KPCA法进行降维,得到如下的结果,其中特征值的累积贡献率为80%。

alt

KPCA函数如下。

alt

例5.5 对某汽轮机械减速箱运动运行状态进行监控,得到了2类20个样本,如表5.6所列。其中类别为1表示正常,类别为2表示故障。试用基于核的PP方法对数据集进行分析。

表5.6 减速箱运行状态特征数值

alt

:将样本分为两部分,前12个样本用于学习,后8个样本用于检验。

根据基于核的PP方法的原理,首先利用Fisher法求得第1个投影方向,然后通过主成分分析求第2个投影方向。

alt

从图5.5中可明显地看出分类效果良好,如果第1个投影方向的计算采用KPCA法,则

可得到图5.5(b)。

alt

图5.5 样本状态的分类图

例5.6 鸢尾属植物样本数据,也称为Iris数据,是模式识别文献中最著名的数据集之一。该数据集有150个样本,有3个类,每个类有50个样本属于一种类型的鸢尾属植物。3个类分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾,其中山鸢尾与变色鸢尾、维吉尼亚鸢尾是线性可分的,变色鸢尾与维吉尼亚鸢尾是线性不可分的。表5.7列出了其中的一部分数据。试用基于核的Fisher方法进行分类分析。

表5.7 三类鸢尾属植物的特征数据

alt

注:x1为花瓣宽;x2为花瓣长;x3为萼片宽;x4为萼片长。

alt

alt

例5.7 投影寻踪方法还可以与其他方法联用。例如与主成分分析联用就可以通过对原始变量的一维投影的研究,找出起主要作用的几个综合指标。这几个综合指标是原始变量的线性组合,不仅保留了原始变量的主要信息,彼此之间不相关,又比原始变量具有某些更优越的性质。投影寻踪主成分分析的优化目标函数如下:

alt

可以求出指标函数值大于零的d(d≤m)个相互正交的主成分Q(a)及相应的特征向量ad,然后按下式计算主成分Fi′i和各个样本的综合评价函数值Fi

alt

其中,αi′为每个主成分Q(ai′)的贡献率。

某地待评价的水利投资方案有4个,其评价指标值见表5.8。试用投影寻踪主成分分析法评价各方案。

表5.8 各评价方案的指标值

alt

:同样采用遗传算法进行优化。在求出第一个主成分后,要在遗传算法的GUI中Linear Equalities增加向量相互正交约束条件后再求解第二、第三个主成分。计算结果如下:

alt

各主成分的贡献率分别为72.39%、14.87%、12.74%。

评价函数值分别为-0.7984、-1.5115、-0.0397、2.3495。

也即方案D最优,方案C、A、B依次减弱。