1
模式识别与智能计算的MATLAB实现
1.10.3.1 8.3.1 模型结构
8.3.1 模型结构

运用粗糙集理论的方法进行系统综合评估一般分为两个阶段:

第一阶段是学习阶段或训练阶段,就是根据样本数据(或称为历史数据)进行学习,从而提炼过程知识,形成评估规则,为评估做准备。

第二阶段是应用阶段,即应用所形成的评估规则进行系统综合评估,如图8.2所示。对系统进行综合评估与决策过程非常类似,可以把决策表看作评估系统,评估结果就对应着决策属性。因此从本质上讲,系统综合评估就是一个分类过程,而粗糙集理论能有效地处理这类分类问题。

alt

图8.2 基于粗糙集的系统综合评估模型结构

对于粗糙集而言,所处理的属性值必须是离散化的数据,然而,如果当输出是连续数据时,在应用时必须对数据进行离散化处理。

现有的离散化方法包括等距离划分算法、等频率划分算法、Naïve Scaler算法、Semi Naïve Scaler算法、布尔逻辑和Rough集理论相结合的离散化算法、基于断点重要性的离散化算法等。

等频率划分算法是根据用户给定的参数k把m个对象分成段,每段中有m/k个对象。假设某个属性的最大属性值为xmax,最小属性值为xmin,用户给定的参数为k,则需要将这个属性在所有实例上的取值按从小到大进行排列,然后进行平均划分为k段即得到断点集。每两个相邻断点包含的属性值的个数是相等的。

等距离划分算法是在每个属性上,根据用户给定的参数来把属性值简单地划分为距离相等的断点段,不考虑每个断点中属性值个数的多少。假设每个属性的最大属性值为xmax,最小属性值为xmin,用户给定的参数为k,则断点间隔为δ=(xmax-xmin)/k。由此得到此属性上的k+1个断点值xmin+iδ(i=0,1,2,…,k),断点之间的距离都等于断点间隔。

例如有下列15个连续性数据:{0.02,0.48,0.12,0.08,0.40,0.05,0.06,0.10,0.42,0.05,0.11,0.08,0.47,0.43,0.03},给定参数k=3,则依等频率划分算法可知0.02~0.06为第一个等级,0.08~0.12为第二个等级,0.4~0.48为第三个等级,据此可得到离散值为{1,3,2,2,3,1,1,2,3,1,2,2,3,3,1}。依等距离划分算法可知,0.02~0.17为第一个等级,0.17~0.32为第二个等级,0.32~0.48为第三个等级,据此得到的离散值为{1,3,1,1,3,1,1,1,3,1,1,1,3,3,1}。