1
模式识别与智能计算的MATLAB实现
1.9.4 7.4 可拓学在科学研究中的应用

7.4 可拓学在科学研究中的应用

例7.1 品种区域试验是作物育种过程中的一个重要环节,其评价结果是否准确可靠,往往决定着育种工作的成败。因此,长期以来,为了寻求科学合理的评价方法,人们提出了不少富有新意的好方法,例如方差分析法、联合方差分析法、稳定性分析法、品种分级分析法、非平衡资料的参数统计法、秩次分析法,等等。然而,由于它们均局限于对产量一个性状的分析,所以当时代发展对作物品种提出高产、优质、抗病、抗虫等多目标的需求时,上述方法便显得不足。试利用可拓学评价方法对其进行分类。数据见表7.1。

表7.1 2001—2002年度河南省小麦高肥冬水组区域试验结果(安阳点)

alt

解:

①确定品种优劣等级的经典域和节域

根据多年积累的品种试验数据与大面积推广品种的试验数据或具体试验数据,将品种各性状划分为四个等级,即优良、较好、一般、较差,可用以下四个矩阵表示:

alt

矩阵中各数据的来历以产量优劣等级确定为例说明:先找出产量的最大值571.2和最小值424.7,其差为146.5,将其划分为四等份,每等份为146.5/4=36.625。于是产量性状优良等级的值域为[534.575,571.2],较好等级的值域为[497.95,534.575],一般等级的值域为[461.325,497.95],较差等级的值域为[424.7,461.325]。其余性能值域的确定方法与此类似。

②确定待评物元集合

根据表7.1中的数据可以得到如下的矩阵:

alt

③确定性状ci的权系数

可以利用层次分析法等方法确定性状的权系数。在本例中假设各性状的权重系数为

alt

④待评品种物元集合

alt

⑤计算待评品种vl关于等级j的关联度

利用下列函数可以求得每个样品关于各等级的关联度:

alt

alt

⑥对待测元进行评价

根据每个样品对各等级的关联度值,可求出每个样品对应的等级为

d=[4 4 4 4 2 1 1 2 1 4]

其中,4代表较差,2代表较好,1代表优良。

例7.2 水资源是制约经济发展的一个重要因素。根据某市水资源开发利用实际情况,选取了10个评价因素指标,即①水资源开发利用率x1(%);②灌溉率x2(%);③地表水控制率x3(%);④重复利用率x4(%);⑤人均占有水量x5(m3/人);⑥人均供水量x6(m3/人);⑦渠系水利用系数x7;⑧客水利用率x8(%);⑨可利用水量模数x9(万m3/km2);⑩水利工程投资比重x10(%)。该市水资源开发利用程度综合评价因素的各指标值见表7.2。同时,还给定了10个指标的三级指标标准值的评价标准,见表7.3,其中Ⅰ~Ⅲ级分别表示水资源开发利用的3个不同阶段,Ⅰ级表示水资源开发利用尚处于初始阶段,Ⅱ级表示水资源开发利用处于发展阶段,Ⅲ级表示水资源开发利用处于饱和阶段。试对该城市的水资源利用程度进行评价。

表7.2 水资源开发利用程度综合评价因素的指标值

alt

表7.3 综合评价因素分级指标

alt

:由于各评价指标的量化值所在的区间不完全相同,并且表示的意义也不同,所以需要对指标值及标准值进行归一化处理,然后分别求出经典域、节域、待测元和权重,再求出关联度值,并在此基础上求出评价结果。

经典域可以根据分级指标值求得:

alt

d=2,即该市的水资源开发正处于发展阶段。

例7.3 空气质量的优劣和很多因素有关,并且和经济的发展以及人口的数量有着紧密的联系。我国某地区的第一、二、三大产业的历年产值以及各年度的人口总数的原始数据如表7.4所列。

表7.4 我国某地区三大产业的年产值和当年人口总数

alt

该地区历年空气污染指数如表7.5所列。

表中PM10表示粒径在10μm以下的颗粒物,又称为可吸入颗粒物或飘尘。试用可拓元分析法对该地区的空气污染情况进行预测。

:由表7.4和表7.5的原始数据,得到历年一、二、三产业值,人口总数以及各个空气污染物浓度的年增长率(即该年与上年值之比),如表7.6和表7.7所列。

表7.5 我国某地区各年平均空气污染指数

alt

表7.6 我国某地区三大产业的年产值和各年总人口的年增长率

alt

表7.7 我国某地区空气污染指数年平均增长率

alt

根据上述历史资料(以2000—2005年的资料为聚类样本,2006年的资料为待测样本),以该地区SO2的年增长率在0.8~1.4之间为例。将样本按SO2的年增长率R分为三类:

alt

根据表7.6和表7.7,利用经典域公式构造各个类别的经典域物元,即根据SO2等级划分,将表7.6对应的样本数据进行平均化,然后根据均值及范围便可以构造各个类别的经典域物元以及节域物元;而待测样本的物元则为2006年的数据,权重系数采用比重权数,即根据某指标在所有被评价对象上的观测值比重差异大小来确定的一种数量权数,它用该指标的比重差异信息来衡量其重要性大小。对于每一个要进行判别的类来说,待测样本每个因子的权系数由其与相对应特征的经典域最大值的比值占这一类中各因子与其相对应特征值经典域最大值的比值之和的比例确定,具体计算公式如下:

alt

其中,j代表因子(特征向量);i代表类别;mij为待测物元值;bij为经典域中各类别取值范围中的最大值。

根据经典域、节域和待测样本物元就可计算关联函数,得K1(p)=-0.2436,K2(p)=0.1425,K3(p)=-0.2362,所以2006年空气污染指数增长率属于第二类,增量在1.02~1.26之间,则2006年该地区各空气污染物浓度范围SO2为0.0867~0.107,NO2为0.04998~0.0617,PM10为0.0877~0.1084。

从以上的应用实例中可看出,在解决实际问题中,比较关注的是利用可拓元方法的预测效果如何。在此可以采用回报的方法,即利用数据集中的部分数据进行预测,应用所建立的关联函数,分别求出事物预测样本中各个体与各群体间的关联度,然后对各个体进行判别,将判别后的结果与实际情况比较就可看出预测方法的优劣。一般来说,预测效果的好坏很大程度上取决于n个特征的选取和经典域节域的取值范围及各权系数的确定。当预测效果不理想时可以调整上述参数,直到获得满意的预测效果为止。还可以结合判别分析法确定某种判别规则后,对结果进行有效性判别。