Classification in financial scenario-basic concept and idea 分类算法与金融应用——基本概念与思想
上一节
下一节
主要知识点:
分类的内涵
分类就是通过从训练集中学习得到一个分类模型,对未标记数据对象进行类别预测的任务。训练集training set,是用来训练的数据对象的集合,训练集里面的数据对象还包含一个特别的属性,就是类别。分类模型就是从训练集里面学习出来的属性集合和类别标签之间的抽象表示关系。在此基础之上,为了验证学习出来模型的准确度,需要测试集对模型的效果进行测度和检验。同时,为了确保测度的公正性,测试集的数据对象是和训练集相互独立的,测试集的数据不能用来构造分类器。
分类算法应用于金融场景的具体步骤
场景:给定金融领域中的贷款申请场景,即金融机构通过申请人的相关信息决定是否通过申请。
步骤一:归纳过程,即使用学习算法(learning algorithm)对已有的训练集进行归纳和学习,建立起分类模型。从图中可以看出,这一阶段需要训练集,包含数据对象的属性和类别标签,本例中年龄和收入就是属性,通过和失败就是类别标签,还需要相对应的学习算法,另外模型也可以有多种表现形式,如决策树,规则集等,图里面的模型就是用规则的方式去表现的。

步骤二:演绎和应用的过程。首先,我们需要一个模型评价步骤,即运用独立于训练集的测试集数据对学习出来的模型进行评价,即比较模型对测试集数据对象预测出来的类别标签和测试集真实标签,评价的指标包含准确率等,如果模型的准确度通过了检验,那么就可以使用模型对未知的数据对象进行分类预测,图中运用了一个新的申请对象00001进行应用,最后得出的结论为不通过。


