1
模式识别与智能计算的MATLAB实现
1.4.1.2 2.1.2 最小风险率贝叶斯分类
2.1.2 最小风险率贝叶斯分类

在处理实际问题时,可以发现使错误率最小并不一定是一个普遍适用的最佳选择。例如,在对细胞进行分类时不仅要考虑到尽可能作出正确的判断,而且还要考虑到作出错误判断时会带来什么后果。诊断中如果把正常细胞判为异常固然会给病人带来精神上的负担,而如果本来就是异常情况却错判为正常,就会使早期的癌变患者失去进一步检查的机会,造成严重的后果。显然,这两种不同的错误判断所造成损失的严重程度是有显著区别的,后者的损失比前者更严重。最小风险贝叶斯决策正是考虑各种因素造成不同损失而提出的一种决策规则。

基于最小错误概率,在分类时取决于观测值X对各类后验概率中的最大值,因而也就无法估计作出错误决策所带来的损失。为此,将作出决策的依据,从单纯考虑后验概率最大值改为对该观测值X条件下各状态后验概率求加权和的方式,即

alt

其中,αi代表将X判为ωi类的决策;λ(αi,ωj)表示观察样本X实际上属于ωj,但由于采用αi决策而被判为ωi时所造成的损失函数;Ri(αi∣X)则表示观测值X被判为i类时损失的均值。

设观测值X是d维随机向量X=(x1,x2,…,xnT,分为M类ω1,ω2,…,ωM,而决策由a个决策αi(i=1,2,…,a)组成,损失函数为λ(αi,ωj)(i=1,2,…,a;j=1,2,…,M),并且已知先验概率P(ωj)及类条件概率密度P(X|ωj)。

根据贝叶斯公式,后验概率为

alt

由于引入了“损失”的概念,在考虑错判所造成的损失时,就不能只考虑后验概率的大小来决策,而必须考虑所采取的决策是否使损失最小。对于给定的X,如果采取决策αi,因为对应于决策αi,损失函数λ可以在决策表中的M个λ(αi,ωj)值中任取一个,其相应概率为P(ωj∣X),因此在采取决策αi情况下的条件期望损失或条件风险Ri(αi∣X)为

alt

由于X是随机向量的观测值,对于X的不同观测值,采取决策αi时,其条件风险是不同的,因此究竟采取哪一种决策将随X的取值而定。这样决策α可以看成是X的函数,记为α(X)。它本身也是一个随机变量,可以定义期望风险R为

R=∫R(α(X)∣X)P(X)dX

期望风险R反映了对整个特征空间上所有X的取值采取相应的决策α(X)所带来的平均风险,而条件风险Ri(αi∣X)只是反映了对某一X的取值采取决策αi所带来的风险。显然,要求采取的一系列决策α(X)应使期望风险R最小。

在考虑错判带来的损失时,我们希望损失最小。如果在采取每一个决策或行动时,都使其条件风险最小,则对所有的X作出决策时,其期望风险也必然最小。这样的决策就是最小风险贝叶斯决策。

最小风险贝叶斯决策规则为

alt,则α=αk

对于实际问题,最小风险贝叶斯决策可按下列步骤进行:

①在已知P(ωj),P(X∣ωj)及给出待识别的X的情况下,根据贝叶斯公式计算出后验概率P(ωj∣X)(j=1,2,…,M)。

②利用计算出的后验概率及决策表,计算条件期望损失Ri(αi∣X)(i=1,2,…,a)。

③将得到的a个条件风险值R(αi∣X)进行比较,找出使条件风险最小的决策αk,则αk就是最小风险贝叶斯决策。

需要指出的是,在实际工作中要列出合适的决策表很不容易,往往要根据所研究的具体问题,分析错误决策造成损失的严重程度,与有关专家共同商讨来确定。