分类算法
上一节
下一节
一、什么是分类?
分类是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法属于一种有监督的学习。
分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类对新的数据集进行划分。
二、常用的分类算法
决策树
Logistic回归
支持向量机
三、分类算法的评价指标
高考成绩用来评估学生的学习能力
杠铃的重量用来评估肌肉的力量
跑分用来评估手机的综合性能
分类算法的主要评价指标如下:

【案例】训练集数据如下所示:

模型预测数据如下:

构建出的混淆矩阵如下所示:

其中,TP分别表示机器判断对不对,机器判断是不是

TP - True Positive:实际为男性,且判断为男性(正确)
FN - False Negative:实际为男性,但判断为女性(错误)
TN - True Negative:实际为女性,且判断为女性(正确)
FP - False Positive:实际为女性,但判断为男性(错误)
1.准确率

2.精确率(差准率)

3.召回率(敏感度)

4、F1
精确率(Precision)和召回率(Recall)“两难全”,为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数。


