课前指导
上一节
下一节
“统计机器学习:监督学习”包括的内容有机器学习基本概念、回归分析和提升算法(boosting)。统计机器学习是一种“数据驱动学习(data-driven learning)”的计算范式。本次课程讲授的学习方法需要标注数据才能完成,因此叫监督学习(supervised learning)。
统计学家、Fisher判别函数表达式的提出者Ronald Aylmer Fisher曾经讲过,统计分析的目的是“化繁为简(the object of statistical methods is the reduction of data)”,即从海量大数据中去挖掘和甄别产生数据的精巧模型(大道至简、大巧不工)。
回归分析方法用适当参数去拟合(fit)数据,用较少参数来阐释数据的产生机制,从数据出发,建立符合数据模式的模型。
提升算法从弱分类器学习得到强分类器,体现了“能用众力,则无敌于天下矣”、“积力之所举,则无不胜也”等古代哲学思想,也从一个侧面说明了算法的可学习性(Learnability)的性质。

