1
模式识别与智能计算的MATLAB实现
1.8.1 6.1 统计学习理论基本内容

6.1 统计学习理论基本内容

设存在n个二类模式识别问题的学习样本

(X1,y1),(X2,y2),…,(Xn,yn), yi∈{-1,1}

学习的目的是从一组函数中{f(X,W)}求出一个最优函数f(X,W0),使在对未知样本进行估计时,下列的期望风险最小:

R(W)=∫L(y,f(X,W))dF(X,y)

其中,F(X,y)是联合概率,L(y,f(X,W))是用f(X,W)对y进行预测而造成的损失,称为损失函数。对于两类模式识别问题,可定义

alt

在传统的学习方法中,学习的目标使经验风险Remp最小,即采用所谓的经验风险最小化原则(Empirical Risk Minimization, ERM),有

alt

事实上,在学习过程中用ERM准则代替期望风险最小化这一学习目的并没有充分的理论依据,而只是感觉上合理的假设,训练误差小并不总能导致好的预测结果。

进一步的研究表明,用一个十分复杂的模型去拟合有限的样本,会导致学习机器在泛化能力上的损失。如何设计一个好的分类器,使其具有很好的泛化能力,便是支持向量机的研究范畴。

统计学习理论提出:在最坏的分布情况下,经验风险和实际风险至少以概率1-η满足关系

alt

简记为

R(W)≤Remp(W)+∅

上式表明,实际风险由两部分组成:经验风险和置信风险(也称VC信任)。置信范围不仅受置信水平1-η的影响,而且还是函数集VC维h和训练样本数目n的函数,h增大或n减少会导致其增大。

VC维是指对于一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则函数集的VC维就是它所能打散的最大样本数目h。

通常,对于一个实际的分类问题,样本数是固定的,此时分类器的VC维越大(即分类器的复杂程度越高),则置信范围也相应增大,导致真实风险与经验风险之间可能的差距也就越大。因此在设计分类器时,不但要使经验风险最小,还要使VC维尽量小,从而缩小置信范围,使期望风险最小,这种思想即为结构风险最小化(Structural Risk Minimization)原则,简称SRM最小化。

SVR原则定义了在对给定的数据的精度和逼近函数的复杂性之间的一种折中,如图6.1所示。这也说明了神经网络训练中出现过的学习问题:神经网络学习过程中选择的模型具有太高的VC维。

alt

图6.1 结构风险最小化

在SRM原则下,一个分类器的设计过程分为两步:

①选择分类器的模型,使其VC维较小,即置信范围较小;

②对模型进行参数估计,使经验风险最小。