主要知识点:
贝叶斯公式
如下图所示,其中P(Y|X)表示随机变量X取一个特定值时随机变量Y的条件概率,其和联合概率P(X,Y)相关,而联合概率又可以写成P(X|Y)P(Y)的形式,而分母是包含X的边缘概率。

贝叶斯定理是如何应用于分类问题
给定属性值A={A1,...,An}的数据样本中观察到类别C的概率可以表示为P(C|A1A2...An),这被称为目标类的后验概率,对应式(4)中左边的条件概率P(Y|X)。依据贝叶斯公式写出式(6),分子中P(A1A2...An|C)为类条件概率,测量属于C类别的样本中观察到属性值A的可能性。如果A确实属于C类别,那么期望该条件概率取值较大,对应式(4)的P(X|Y)。式(6)中,分子中P(C)是先验概率,用来捕获类别标签分布的先验知识,对应式(4)中的P(Y)。式(6)中分母为P(A1A2...An),这一项不依赖于类别标签,在后验概率的计算中可以被视为归一化常数,对应式(4)中的P(X)。因此,要想依据此式进行分类,关键的问题在于如何估计类条件概率P(A1A2...An|C)。

朴素贝叶斯分类器核心思想——对类条件概率的估计
朴素贝叶斯分类器对类条件概率做了简化假设,其假设所有属性A的类条件概率可以被分解为类条件概率的乘积,即如下图所示,即给定类别标签C,属性值Ai是相互条件独立的,这意味着只有目标类别可以影响属性。

4.基于实际金融场景的朴素贝叶斯分类器类条件概率估算

计算条件概率P(Gender=Male|Cheat=No),通过前述内容可以得知其等于样本为No的训练样本中Gender=Male样本的比例,我们已经知道了训练数据集中共有7个数据对象的类别标签为no。在这7条数据对象中,共有ID=002,006,010三条数据对象的Gender属性值为Male,因此这个条件概率等于3/7。
计算条件概率P(Income=12000|Cheat=No),采用应用概率分布方法进行估算。假设条件概率服从高斯分布,通过训练数据集对该高斯分布的均值和方差进行估计。在类别标签Cheat=No的情况下,均值等于8071,而相应的方差为7035714,那么条件概率等于0.00005。

