1
模式识别与智能计算的MATLAB实现
1.4.1 2.1 基于概率统计的贝叶斯分类方法

2.1 基于概率统计的贝叶斯分类方法

统计模式识别中的分类问题就是根据待识别样本的特征向量值及其他约束条件将其分到某个类别中去。采用贝叶斯(Bayes)分类器必须满足下列两个先决条件:

①要决策分类的类别数是已知的;

②各类别总体的概率分布是已知的。

在条件①中,假设要研究的分类问题有c个模式类,分别用ωi(i=1,2,…,c)表示。在条件②中,假设待识别样本的特征向量值X所对应的状态后概率P(ωi∣X)是已知的;或者对应于各个类别ωi出现的先验概率P(ωi)和类条件概率密度函数P(X∣ωi)是已知的。

先验概率是针对M个事件出现的可能性而言的,不考虑其他任何条件。例如,由统计资料表明总样本数为N,其中正常样本数为N1,异常样本数为N2,则

alt

虽然在一般情况下,P(ω1)>P(ω2),但若仅按此规则决策,则会把所有的样本都归属到正常样本数中。这说明由先验概率所提供的信息太少。

若已知各类别的先验概率P(ωi)及类条件概率密度函数P(X∣ωi),则根据贝叶斯公式可以计算出该样本分属于各类别的概率,即后验概率,它表示在X出现条件下,样本为ωi类的概率。

alt

类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。贝叶斯公式体现了先验概率、类条件概率密度函数和后验概率三者间的关系。

类条件概率密度函数P(X∣ωi)是指在已知某类别的特征空间中,出现特征值X的概率,也即第ωi类样本的属性X是如何分布的。

在实际应用的许多问题中,统计数据往往满足正态分布规律。正态分布简单,分析方便,参量少,是一种适宜的数学模型。如果采用正态密度函数作为类条件概率密度的函数形式,则只要利用大量样本估计出方差、期望等参数,类条件概率密度P(X∣ωi)也就确定了。

在大多数情况下,类条件概率密度可以采用多维变量的正态密度函数来模拟。

alt

其中,X=(x1,x2,…,xn)为n维特征向量;

alt为n维协方差矩阵,其中alt=(μ1,μ2,…,μn)为n维均值向量;

S-1是S的逆矩阵,∣S∣是S的行列式。

alt为ωi类的均值向量。