1
模式识别与智能计算的MATLAB实现
1.10.5 8.5 粗糙集理论在科学研究中的应用

8.5 粗糙集理论在科学研究中的应用

例8.1 给定一个知识库K=(U,R)和一个等价关系R∈ind(K),其中U={x0,x1,…,x10}且有R的下列等价集:E1={x0,x1},E2={x2,x6,x9},E3={x3,x5},E4={x4,x8},E5={x7,x10}。求集合X1={x0,x1,x4,x8},X2={x0,x3,x4,x5,x8,x10},X3={x0,x2,x3},X4={x0,x1,x2,x3,x4,x7}的近似集及精度。

:对于X1={x0,x1,x4,x8},因为从E1、E4看可以肯定X1属于U,所以R-(X1)=R-(X1)=E1∪E4

对于X2={x0,x3,x4,x5,x8,x10},因为从E3、E4看可以肯定X2中的{x3,x5,x4,x8}属于U,即R-(X2)=E3∪E4;而从所含元素分析,其上近似应为R-(X2)=E1∪E3∪E4∪E5,因此其边界域为

BNDX2=E1∪E5,精确度αX2(R)=(10-4)/10=3/5

对于X3={x0,x2,x3},因为从R的等价集分析,没有元素能肯定属于U,所以R-(X3)=∅,而上近似为R-(X3)=E1∪E2∪E3

对于X4={x0,x1,x2,x3,x4,x7},因为从R的等价集分析,能肯定属于U的元素为{x0,x1},所以R-(X4)=E1。其上近似为R-(X4)=U,因此其边界域为

BNDX4=E2∪E3∪E4∪E5,精确度αX4(R)=(10-9)/10=0.1

例8.2 对某一评价系统进行离散化处理后,得到表8.1所列的决策表,其中x1、x2、x3为三个条件属性(特征值),D为决策属性。试对其进行约简。

表8.1 某系统评价的决策表

alt

alt

alt

alt

限于篇幅,约简函数中所用到的许多函数就不再一一列出,在此只列出其中的求等价集函数。

alt

例8.3 对某一预测系统,通过观察21年的数据并经过等距离法进行离散处理后得到表8.2所列的决策表,试对其进行约简。

表8.2 某系统评价的决策表

alt

alt

得到如下的约简决策表,其中x1可约简,最后一列为决策属性。

alt

例8.4 舒适的室内环境一直是人们追求的目标。但因为没有一个确切的量化评价指标来评价室内环境,因此在室内环境日益改善的同时,能量消耗也逐渐增大。目前常用的室内环境评判指标有温度、有效温度(ET)、PMV-PPD指标等。但是由于影响室内环境的因素很多,再加上评价者的主观因素,使得评价信息出现不完全、不精确的情况。

在这种情况下,粗糙集理论可以发挥其作用,通过约简不必要的属性,并通过计算测量数据矩阵中各属性的重要度来确定其权重系数,克服了主观性评价不客观性的缺点。

室内环境舒适性评价因素包括空气温度、相对湿度、平均辐射温度、气流速度、噪声和空气质量等,决策属性为很好、好、一般、差、很差5个评价状态。

对某一写字楼的20个用户进行调查问卷,并同时测量6个指标值。经统计后得出各个测量数据对应的舒适程度,再对测量数据进行离散化后得到如表8.3所列的决策表。试对其进行评价。

表8.3 室内环境舒适度的决策表

alt

alt

计算结果表明,属性3可以约简,得到最终的决策表y1。然后利用calimport函数对决策表中的属性计算重要性,得到各属性重要性分别为0.533、0.8667、0.8667、0.8667、0.8667,从而可得到各属性的权重分别为0.1333、0.2167、0.2167、0.2167、0.2167,说明风速也是影响舒适度的一个非常重要的指标。

根据权重系统及决策表,就可以采用多种方法进行评价如模糊理论等。限于篇幅,这部分的内容就不再介绍,可以参见本书其他章节的相关内容。

例8.5 某机械常见故障有磨损、叶片断裂、动平衡破坏、同心度偏移、油膜失稳等。当发生这些故障时,会出现多种征兆,尤其以振动现象最为明显、普遍。通过研究该机械的故障振动表现为其旋转频率的倍频。因此,可以用该机械在这些频率成分上的振动能量作为特征信息来诊断识别各种故障。

通过分析测量得到表8.4所列的数据(已经离散化),其中属性分别用x1、x2、x3、x4、x5表示,故障用D表示。试用粗糙集理论分析之。

表8.4 某机械故障的决策表

alt

alt

alt

在本例中通过y2的值可知,可以约简的属性为x2、x3、x4,但不能同时约简,否则有相矛盾的规则,即不符合一致性。最后通过计算得到其中的一种约简组合,即约简x2、x3,得到如下的决策表,其中第1列为x1,第2列为x4,第3列为x5,第4列为决策属性。

alt

根据以上的决策表作为训练集,利用人工神经网络等方法就可以判别不同情况下的该机械的故障种类。人工神经网络方法见本书的相关章节。

例8.6 证券公司为了更好地对不同客户服务,需要对客户进行分类。根据资金余额、总成交额、总成交量和交易频度等四个指标,确定客户为VIP、IP和CP(由专家根据四个指标值的不同情况决定)。现根据相关数据得到表8.5所列的决策表。试求客户的分类方法。

表8.5 决策表

alt

:可以根据决策表求出每个指标的权重,然后根据每个客户这4个指标的具体数值,便可以求出客户的重要程度。

alt

类似地,可求出第2、3、4个指标的依赖度分别为0.778、0.250、0.60,全部指标的依赖度为1,从而可计算各指标的重要性为0.2、0.222、0.750和0.40,相应的权重系数为0.1272、0.1399、0.4771和0.2545。由于第1、2个指标的权重基本相同,可以将其并入一个,从而可得到决定客户重要性的各指标比例分别为20%、70%和10%。

粗糙集在科学研究中的应用还有很多例子,就不再一一列举,它的作用主要是进行属性约简及重要度计算,进而再结合其他的模式识别方法进行聚类、评价、检测等过程。