主要知识点:
1.分类误差相关术语
训练误差,表示的是模型在训练集上的误差
测试误差,表示的是模型在测试集上的误差
泛化误差,也叫样本外误差,是指模型在未知记录上的期望误差,即在训练集上没见过的数据的错分样本比率
2.拟合不足和过拟合
拟合不足常常在模型学习能力较弱,而数据复杂度较高的情况出现。此时模型由于学习能力不足,无法学习到数据集中的“一般规律”,因而导致泛化能力弱。
过拟合常常在模型学习能力过强的情况中出现,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是“一般规律”,同样这种情况也会导致模型泛化能力下降。
3. 偏差和方差
偏差是指预测结果与真实值之间的差异,通常是指某个模型输出的样本误差。
方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异,是衡量预测值之间的离散程度。
偏差越大时,预测值和真实值差距越大。方差越大时,预测值的离散程度越高。
4.偏差、方差和拟合不足与过拟合的关系
当模型过于简单时,呈现低方差高偏差,模型只学到简单规律,对样本区分能力差,模型拟合不足;当模型过于复杂时,呈现高方差低偏差,模型对训练样本学习的太好,而对新的数据表现差,模型过拟合。
5.模型拟合不足和过拟合产生的主要原因
拟合不足产生的原因:第一个原因,模型的复杂度太低,第二个原因,数据的特征太少。这样都会导致模型的学习能力不足,无法学习到数据集中的一般规律,也无法捕捉到属性和类别之间的真实关系。
过拟合产生的原因:第一个,噪声影响,样本噪音的干扰会使模型将部分噪音认为是特征从而扰乱了分类规则;第二个,缺乏样本数据,建模样本选取有误的情况下,样本数量太少,会导致选取的样本数据不足以产生合适的分类规则;第三个,复杂的目标和样本不足,数量不够的情况下,如果目标函数是50次,我们用2次和10次的模型去拟合这些数据,会导致过拟合,而且2次的效果会更佳。当目标函数模型很复杂的时候,数据量小的话这些数据就相当于噪声,这也是过拟合的一种情况;第四个,模型过度复杂,过于复杂的模型会导致其不能捕捉到属性和类别之间的本质关系。

