Direct Method for Rule Extraction in Rule-based Classifier 规则提取的直接方法
上一节
下一节
主要知识点:
基于规则的分类器的直接方法
直接方法是指从数据中直接提取规则集的方法。经典的RIPPER算法中采用顺序覆盖算法从数据中提取规则。
2.顺序覆盖算法主要步骤
算法开始时,决策列表为空
通过Learn-One-Rule函数产生一条规则
删除该规则覆盖的所有训练实例
以上步骤不断重复直到满足停止条件
3.顺序覆盖算法中的关键问题
(1)Learn-One-Rule函数是如何产生规则的?
规则生长——规则增长策略有两种:从一般到特殊策略和特殊到一般策略。Learn-One-Rule函数的规则增长策略采用从一般到特殊策略,首先产生一条规则R:{}→+,然后对规则进行细化,添加合取项。
规则评价——FOIL信息增益。
规则剪枝——RIPPER算法会根据该规则在验证集上的表现进行度量,确认是否需要进行修剪从而改善其泛化错误率。
(2)产生规则之后要删除规则覆盖的所有正例和负例样本。
(3)规则集停止增长条件
最小长度描述准则,如果新规则将规则集的总描述长度增加了d个比特位,那么就停止将该规则加入到规则集中,一般默认d是64位。
规则在验证集上的错误率不超过50%。

