1
模式识别与智能计算的MATLAB实现
1.10.4 8.4 粗糙集聚类方法

8.4 粗糙集聚类方法

1.聚类问题的粗糙集表达

在粗糙集理论中,知识表达系统用知识表达属性值表的表格来实现。通过一定的方法,将样本表达成知识表达属性值表的形式。知识的表格表达方法可以看作一种特殊的形式语言,用符号来表达等价关系,这样的数据表称作知识表达属性值表或决策表。在知识表达属性值表中,条件属性为样本的特征值,决策属性为类别。列表示属性,行表示对象(样本),并且每行表示该对象的一条信息,决策属性为类别。数据表可以通过试验、观察和测量得到,并且一个属性对应一个等价关系,一个表可以看作定义的一族等价关系。

对于两类问题,决策表中的对象为两类样本的训练样本集合X,对每个样本的特征进行二值化作为条件属性。若特征值为0,则对应条件属性也为0;若特征值大于0,则对应条件属性值为1。决策属性值对两类样本分别用0、1表示。

2.约 简

约简就是利用粗糙集理论,通过对决策表进行条件属性约简、决策规则约简,获取最小决策规则,作为最终分类规则。

(1)等价集、下近似集和依赖度计算

计算条件属性X和决策属性D的等价集,并在此基础上计算决策属性的各等价集的下近似集。

计算POS(X,D)和γ(X,D)。

(2)属性约简

对于属性xi计算其重要度:

计算条件属性X-xi和决策属性D的等价集和决策属性的各等价集的下近似集。

计算POS(X-∣xi∣,D)、γ(X-∣xi∣,D)和属性xi的重要度SGF(X-∣xi∣,D)。如果它不等于0,则属性xi不可约简;否则可约简。

对约简后的决策表进行一致性检查,如果决策表一致,则属性可约简;否则不可约简。如果该属性可约简,则从决策表删除该属性。

依上述方法对所有属性进行约简,得到简化后的决策表。

(3)等价集计算

计算约简后的条件属性的等价集alt和决策属性D(d)的等价集altalt

(4)获取规则

对某一条件属性E′i等价集,如果alt,则有规则alt;否则如果alt,则有规则alt

对每一条件等价集进行规则获取,保留有效规则。

(5)规则化简

对某一条件属性xi,如果有两条规则满足xi分别为0和1且除了xi外其他所有条件属性和决策属性都相同的条件,则该属性可以从这两条规则中舍去,从而实现规则化简。

对所有属性进行规则化简,得到最终训练规则。

3.分类判别

利用训练好的规则,对待测样品,已知条件属性(即特征),在训练规则中检索,找到符合规则,其决策属性即为其类别。

粗糙集聚类方法算法流程框图如图8.3所示。

alt

图8.3 粗糙集聚类方法算法流程框图