主要知识点:
数据集、数据对象和数据属性的关系
数据集一般看作数据对象和它们属性的集合。
数据对象有时也被称作记录,点,样本,实例等。例如在销售数据库中,数据对象可以是顾客或者商品。它是用一组刻画对象特性的属性来描述的,比如对顾客的刻画有性别、年龄、购买记录等属性。
属性的概念就为对象的性质或特性。 它因对象而异,有时也被称作特征、维和变量等。例如性别、年龄、购买记录等。
2.属性与属性值的关系
同一个属性可以映射到不同的属性值。例如以属性年龄为例,属性值可以表示为具体的年岁如20岁等,也可以用高,中,低等表示。
不同的属性可以由同样的属性值表示。 例如收入和年龄属性都可以用高,中,低表示。
3.数据集的类型
记录数据。其假定数据集是记录(数据对象)的汇集,每个记录包含固定的属性集,PPT里的P2P借贷数据集就是一个典型的记录数据。另一种较为常见的记录数据形式为数据矩阵,如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点(向量),其中每个维代表对象的一个不同属性。记录数据常见的形式还有事务数据,它是一种特殊类型的记录数据,其中每个记录(事务)涉及一系列的项。如一段时间内不同客户所购买的商品集合,每一条事务代表一个客户的购买记录(PPT表3)。
基于图的数据。第一种是图形能够捕获数据对象之间的联系。如PPT图1所示,不同字母代表不同的数据对象,字母之间的连线表示数据对象间存在关系。另外一种基于图的数据由具有图对象的数据表示,即数据对象本身就是一个图形,如股票走势的K线图(PPT图2),可以表示股票在一段时间内的走势,因此进行图形挖掘是数据挖掘的一个分支。
有序数据。其在属性上表现为有序的关系,常见的一种有序数据为时间序列数据,它的每条记录都是一个时间序列,即一段时间以来的测量序列,如股票指数的时序数据(PPT图3)。另外,有序数据还有一种常见的形式为序列数据,如词或字母的序列,它和时间序列数据的区别在于没有时间戳,如一段关于基因的序列表示就是较为典型的有序数据(PPT图4)。
4.数据属性的类型
标称属性。标称意味着和名称相关,标称属性的值只是一些不同的名字,因此标称属性提供的信息只能区分对象。例如婚姻状况的属性值,已婚,离异和单身表示三个不同的状态,并无其他多余的意义。标称属性里有一种特殊的情况,叫做二元属性(binary attribute),又称布尔属性,它只有两种状态(值),0和1,或者真假等,例如性别属性男和女,就是一个二元属性。另外,还需注意的一点是二元属性有对称和非对称之分,如果二元属性的两种状态具有同等价值并携带同等权重,就为对称的二元属性,如性别属性,如果二元属性的两种状态不具有同等价值和同等权重,就为非对称的二元属性,如信用卡欺诈问题,欺诈通常是少见的。同时,标称属性是一种定性属性。
序数属性。其可能的值之间具有有意义的序或者秩,但是这些相继值之间的差是未知的,因此,和标称属性相比,序数属性多了一个功能,它能够提供足够的信息确定对象的序。例如,对身高的评价,高,中和低,从这些值中可以区分哪个对象更高,但是高多少仍是未知的。另外,序数属性虽然能提供序的信息,但仍是一种描述,也是一种定性属性。
区间属性。其用相等的单位尺度度量,区间属性的值是有序的,可以为正、负和0,因此,除了可提供序的信息外,区间属性还能比较和定量值之间的差。值得注意的一点是,区间属性没有真正的零点。例如日历日期是没有真正的零点的,是区间属性。区间属性和序数属性相比,能够提供更多信息,即值之间的差是有意义的,因此,区间属性是一种定量属性。
比率属性。其和区间属性的区别在于它具有真正的零点,因此值的比率是有意义的。例如工资属性,可以说A对象的工资是B对象工资的3倍。和区间属性一样,比率属性也是定量属性。

