在一般情况下,分类数据(X,y)表示每条输入记录(或样本,实例),其中X表示属性的集合,也可以表示为特征集合(features),而y表示类别或目标属性(label/class)。X中的属性值可以是连续特征也可以是离散特征,而y中的值必须是有离散属性构成。若y中的值在某种情况下为连续值,若要使用分类分析中的方法,也必须将连续值通过数学方法将其转换为离散值。在这里需要注意的是,请读者们回忆第六章的回归算法中的目标属性一般为离散值。所以说,类别属性是离散还是连续,是一种考虑使用分类(classification)还是回归(regression)的一个关键特征。
如下所示,数据集通过样本集合来表示,而每条样本都由输入数据(features)和类别(label)来表示:
分类问题的示例数据集
年龄 | 工资 | 社保 | 地址 | 授权(label) |
32 | 高 | 有 | A区 | 否 |
22 | 低 | 无 | A区 | 是 |
45 | 中 | 有 | D区 | 是 |
65 | 高 | 有 | C区 | 否 |
37 | 中 | 有 | C区 | 是 |
在该表中,年龄、工资、社保、地址为样本集合的特征。所以在该样例中, 一个样本有四个特征,授权与否为类别。读者注意到,在特征集中某些特征是连续性的,即在某一个区间或者无穷区间内该属性的取值可以是连续的,比如年龄。而另外的三个特征则为离散的,也就是取值不是连续的,工资的高低,社保的有无明显是不连续的。
那么分类方法是解决什么问题呢? 我们假设有一个新的样本:年龄:41,工资:中,社保:无,地址:B区。我们怎么知道该样本属于哪种类别呢?(label)。
我们假设一个资深的风险管理员,一眼就能对一个新的客户进行正确分类的称为“经验丰富”,那么经验是从哪里来的呢?当然是长年累月的积累,从成千上万次的分类学习得来的。因此,我们的分类方法如果要达到资深风险管理员的水平,也需要有个学习的过程。
所以,分类方法基本上都需要有一个学习的过程,通过学习来获得一个函数(function),通过完善好的这个函数,我们就可以对一个新的样本进行计算,并得到高准确度的分类结果。
分类的基本过程可以概述如下:首先从分好类,或者说贴好标签的样本中进行学习和训练,建立一个分类模型,然后对没有分类的数据进行分类。
分类方法主要包括贝叶斯分类、决策树分类和神经网络分类等。 这些方法都是通过一个学习过程(learning process)来确定分类模型,并且能够较好地预测未知样本的标签分类。

