1
模式识别与智能计算的MATLAB实现
1.10.1 8.1 粗糙集理论基础

8.1 粗糙集理论基础

1.知识表达系统和决策表

知识是对某些客观对象的认识。为了处理智能数据,需要对知识进行符号表示。知识表示系统就是研究对象的知识通过指定对象的基本特征和特征值来描述,以便通过一定的方法从大量的数据中发现有用的知识或决策规则。

知识表达系统可用下式表示:

S=(alt,C,D,V,f)

其中,alt为对象的集合,即为论域;C∪D=R是属性的集合;子集C和D分别称为条件属性和结果属性;alt是属性值的集合,Vr表示了属性r∈R的属性范围;f∶alt×R→V是一个信息函数,它指定alt中每一对象x的属性值。

知识表达系统的数据以关系表的形式表示,关系表的行对应要研究的对象,列对应对象的属性,对象的信息通过指定对象的各属性值来表示。

设S=(alt,A)为一知识表达系统,且C,D⊆A是两个属性子集,分别称为条件属性和决策属性。具有条件属性和决策属性的知识表可表达为决策表,记为T=(alt,A,C,D)或简称为CD决策表。关系IND(C)和IND(D)的等价关系分别称为条件类和决策类。

对象的特征由条件属性描述,决策属性表示该对象的分类。决策属性可能表示专家根据条件属性描述所做的分类、采取的行动或决策。

2.等价关系

设A代表某种属性集合。a代表属性中的某一种取值。如果有两个样品Xi、Xj,满足以下关系:

对于∀a∈A,A⊂R,Xialt,它们的属性值相同,即fa(Xi)=fa(Xj)成立,称对象Xi和Xj是对属性A的等价关系,表示为

IND(A)={(Xi,Xj)∣(Xi,Xj)∈alt×alt,∀a∈A,fa(Xi)=fa(Xj)}

即属性相同的两个样品之间的关系为等价关系。

粗糙集的等价概念与传统的集合论的等价概念有本质的区别:在传统集合论中,当两个集合有完全相同的元素时,它们是等价的;而在粗糙集中,只是在某一个属性之下,集合的取值相等,它是集合间的拓扑结构,不是构成集合的元素间的比较。

alt中,对属性集A中具有相同等价关系的元素集合称为等价关系IND(A)的等价集[X]A,表示在属性A下与X具有等价关系的元素集合。

[X]A={Xj∣(X,Xj)∈IND(A)}

3.等价划分

从所采集的训练集中把属性值相同的样品聚类,形成若干个等价集,构成A集合。在alt中对属性A的所有等价集形成的划分表示为

A={Ei∣Ei=[X]A,i=1,2,…}

具有特性:

①Ei≠∅;

②当i≠j时,Ei∩Ej=∅;

alt=∪Ei

4.上近似集和下近似集

属性A可划分为若干个等价集,与决策集Y对应关系分上近似集A-(Y)和下近似集A-(Y)两种。

(1)下近似定义

对任意一个决策属性的等价集Y(Y⊆alt),属性A的等价集Ei=[X]A,有

A-(Y)=∪{Ei∣Ei∈A∧Ei⊆Y}

A-(Y)={X∣[X]A⊆Y}

表示等价集Ei=[X]A中的元素都属于Y,即∀X∈A-(Y),则X一定属于Y。A-(Y)表示下近似集。

(2)上近似定义

对任意一个决策属性的等价集Y(Y⊆alt),属性A的等价集Ei=[X]A,有

A-(Y)=∪{Ei∣Ei∈A∧Ei∩Y≠∅}

A-(Y)={X∣[X]A∩Y≠∅}

表示等价集Ei=[X]A中的元素可能属于Y,即∀X∈A-(Y),则X可能属于Y,也可能不属于Y。A-(Y)表示上近似。

(3)正域、负域和边界的定义

全集alt可以划分为3个不相交的区域,即正域(POSA)、负域(NEGA)和边界(BNDA)。

正域:POSA(Y)=A-(Y)。

负域:NEGA(Y)=alt-A-(Y)。

边界:BNDA=A-(Y)-A-(Y)。

由此可见:

A-(Y)=A-(Y)+BNDA(Y)

从上述的定义中可知,任意一个元素X∈POS(Y),一定属于Y;任意一个元素X∈NEG(Y),一定不属于Y;集合的上近似是其正域和边界的并集,即

A-(Y)=POSA(Y)∪BNDA(Y)

对于元素X∈BND(Y),无法确定它是否属于Y,因此对于任意元素X∈A-(Y),只知道X可能属于Y。

5.粗糙集

若A-(Y)=A-(Y),即BNDA(Y)=∅,即边界为空,则称Y为A的可定义集,否则称Y为A的不可定义集,即A-(Y)≠A-(Y),称Y为A的粗糙集(Rough set)。

6.粗糙集的非确定性的精确度αA(Y)和粗糙度ρA(Y)

集合的不确定性是由于边界的存在而引起的,集合的边界域越大,其精确性越低。为了准确地表达这一点,常用精确度αA(Y)和粗糙度ρA(Y)来表示,即

alt

其中,∣alt∣和∣A-(Y)-A-(Y)∣分别为集合alt、A-(Y)-A-(Y)中的元素总数。精确度用来反映alt的知识的完整程度,即根据alt中各属性的属性值就能够确定其属于或不属于Y的比例。

也可以用粗糙度来定义集合alt的不确定程度,即

ρA(Y)=1-αA(Y)

与概率论或模糊集合不同,不粗糙集的精确的数不是事先假定的,而是通过表达知识不精确性的概念近似计算的,这是不精确的数值表示有限知识的结果。