数据集
上一节
下一节
数据集是数据的实例。常见的数据集的表达形式有三类。
6.2.1数据记录集
数据记录由一组包含固定属性值的数据元素组成。数据记录主要有三种形式:数据矩阵、文档向量表示和事务处理数据。如果数据对象具有一组固定的数值属性,则数据对象可视为高维空间的点集,每个维度对应单个属性。这种数据集可以直接表达为一个m×n的矩阵。其中,矩阵的每行代表一个对象,每列代表单个属性在数据集中的分布。这种表示方法称为数据矩阵。数据矩阵通常被组织为表格形式。文档是单词的集合。如果统计文档中所有单词出现的频率,则一个文档可以被表示为一个向量,其长度是单词集的个数,每个分量记录单词集中每个单词在该文档中的频率。事物处理数据是一类特殊的数据记录,每条记录都包含一组数据项。事物处理数据与数据矩阵的差别在于,事物处理数据的每条记录包含的个数和属性不固定,因此无法用矩阵这种大小确定的方式进行表达。
6.2.2图数据集
图是一种数据结构,由一组节点(保存信息的实体)和一组连接两个节点之间的加权边(元素之间的关系)组成。图可以分为有向图、无向图、简单图、多重图、强连通图等。
6.2.3有序数据集
有序数据是具有某种顺序的数据集。常见的数据集包括空间数据、时间数据、时空数据、顺序数据和基因测序数据等。在某些场合,数据可以根据数据的维度进行分类:标量、向量、张量等。

