数据经过前期预处理后,需要做进一步整理。但是不同的数据类型所作的数据整理是不同的,因此,我们要对不同数据类型区别对待。对于定类数据和顺序数据来讲,最主要的整理是分类,而数值型数据的整理多是分组。当然,适合于低层次数据(定类数据和顺序数据)的整理、展示方法也适合于高层次数据(数值型数据),但高层次数据的整理、展示方法并不一定适合于低层次数据。
分类数据整理
分类数据的本身是对事物的一种分类,因此,数据整理的基本过程主要是先列出各类别,如果是两分类变量,那么可以按性别分为男和女。如果是多分类变量,可以分出类别一,类别二,类别三等等。其次是计算各类别的频数、频率或比例等等,即可制作成一张频数分布表。最后用统计表或统计图展示数据,在本节中,为了更清楚的了解不同数据类型的统计指标,在介绍完指标概念后用统计表形象的展示,统计图的展示见下节。
对于分类数据较为重要的统计量有频数和比例等。频数是落在某一特定类别或组中的数据个数。比例是某一类别数据个数占全部数据个数的比值。
顺序数据整理
上述分类数据的频数分布表,如频数、百分比、比例、比率等,也同样适用于顺序数据的整理。但适用于顺序数据的整理并不适用于分类数据,对于顺序数据的整理,除了可使用上面的整理方法,还可以计算累计频数和累计频率。
累计频数就是将各类别的频数逐级累加。频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积。二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。累计频率就是各类别的频率(百分比)的逐级累加。它也有向上累积和向下累积两种方法。
数值型数据整理
前面介绍的分类数据和顺序数据的整理方法,同样适用于数值型数据,但数值型数据的整理方法并不适用于分类数据和顺序数据。
数据分组
数据分组是根据研究的需要,将原始数据按某种标准划分成不同的组,分组后的数据称为分组数据。数据的分组方法有两种:一是单变量值分组,是把每一个变量值作为一组,这种分组方法只适合在变量值较少,并且是离散型变量时使用。二是组距分组,是将变量值的一个区间作为一组,适用于连续变量和变量值较多的情况。在组距分组中,一个组的最小值成为下限;一个组的最大值称为上限。

