1
文本自动标引与自动分类研究
1.6.1.1.2 9.1.2 Na6ve Bayes分类器

9.1.2 Na6ve Bayes分类器

朴素贝叶斯分类法采用概率论中的贝叶斯定理来进行自动分类。其本质是在已知先验概率与类条件概率的情况下的一种模式分类方法。其核心算法公式为:

img106

其中:P(c|d)表示文档d属于类别c的概率;P(c)表示待分类的文档所处的领域中文档属于这个类的概率。在实际的应用中,一般用训练集中属于这个类的文档所占的比例代替计算;P(ai|c)表示在类别c中特征项ai出现的概率,实际计算时,可以近似地用特征项在训练集中所有属于这个类的文档中的出现次数,与训练集中该类别的文档总数之比值代替。