1
模式识别与智能计算的MATLAB实现
1.10.1.2 8.1.2 知识的约简
8.1.2 知识的约简

知识的约简是在保持知识库中初等范畴的情况下,消除知识库中冗余的基本范畴。这一过程可以消去知识库中非必要的知识,仅仅保留真正有用的部分,即知识的“核”。

对于知识库,可用知识表达系统形式化。知识库中任一等价关系在表中表示一个属性和用属性表示的关系的等价类。表中的列可以看作某些范畴的名称,而整个表包含了相应适应库中所有范畴的描述。能从表中数据导出的所有可能的规律,就形成了一个决策表。通过这种表达,很容易用数据表的性质来表示知识库的基本性质,用符号代替语言定义,从而对知识的约简就变成对决策表的简化。

1.决策表的一致性

把决策表中的对象X按条件属性与决策属性关系看作一条决策规则,可写成

∧fCi(X)=fD(X)

其中,Ci表示多个条件属性,D表示决定属性,fCi表示对象X在Ci中的取值,∧表示逻辑“与”。

如果对任一个对象,若条件属性有fCi(Xi)=fCi(Xj),则决策属性必须有fD(Xi)=fD(Xj),即一致性决策规则说明条件属性取值相同时,决策属性取值必须相同。

一致性决策规则也允许:若条件属性有fCi(Xi)≠fCi(Xj),则决策属性可以是fD(Xi)=fD(Xj)或fD(Xi)≠fD(Xj)。

在决策表中如果所有对象的决策规则都是一致的,则该信息表示是一致的,否则信息表示是不一致的。在进行属性约简时,每约掉一个属性时要检查属性表,若保持一致性,则可以删除;否则不可以删除。

2.属性约简

决策表中决策属性D依赖条件属性C的依赖度定义为

alt

其中,∣POS(C,D)∣表示正域POS(C,D)元素的个数,∣alt∣表示整个对象集合的个数。

γ(C,D)的性质如下:

·若γ=1,则表示在已知条件C下,可以将alt上全部个体分类到决策属性D的类别中去;

·若γ=0,则利用条件C不能分类到决策属性D的类别中去;

·若0<γ<1,则在已知条件C下,只能将alt上那些属于正域的个体分类到决策属性D的类别中去。

设C,D⊂A,C为条件属性集,D为决策属性集,a∈C,属性a关于D的重要度定义为

SGF(a,C,D)=γ(C,D)-γ(C-{a},D)

其中,γ(C-{a},D)表示在C中缺少属性a后,条件属性与决策属性的依赖程度;SGF(a,C,D)表示C中缺少属性a后,导致不能被正确分类的对象在系统中所占的比例。

SGF(a,C,D)的性质如下:

·SGF(a,C,D)∈[0,1];

·SGF(a,C,D)=0,表示属性a关于D是可约简的;

·SGF(a,C,D)≠0,表示属性a关于D是不可约简的。

设C、D分别是信息系统S的条件属性和决策属性集,属性集P(P⊆C)是C的一个最小属性集,当且仅当γ(C,D)并且∀P′⊂P,γ(P′,D)≠γ(P,D)时,说明若P是C的最小属性集,则P具有与C相同的区分决策类的能力。