目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据整理

数据经过前期预处理后,需要做进一步整理。但是不同的数据类型所作的数据整理是不同的,因此,我们要对不同数据类型区别对待。对于定类数据和顺序数据来讲,最主要的整理是分类,而数值型数据的整理多是分组。当然,适合于低层次数据(定类数据和顺序数据)的整理、展示方法也适合于高层次数据(数值型数据),但高层次数据的整理、展示方法并不一定适合于低层次数据。

分类数据整理

分类数据的本身是对事物的一种分类,因此,数据整理的基本过程主要是先列出各类别,如果是两分类变量,那么可以按性别分为男和女。如果是多分类变量,可以分出类别一,类别二,类别三等等。其次是计算各类别的频数、频率或比例等等,即可制作成一张频数分布表。最后用统计表或统计图展示数据,在本节中,为了更清楚的了解不同数据类型的统计指标,在介绍完指标概念后用统计表形象的展示,统计图的展示见下节。

对于分类数据较为重要的统计量有频数和比例等。频数是落在某一特定类别或组中的数据个数。比例是某一类别数据个数占全部数据个数的比值。

顺序数据整理

上述分类数据的频数分布表,如频数、百分比、比例、比率等,也同样适用于顺序数据的整理。但适用于顺序数据的整理并不适用于分类数据,对于顺序数据的整理,除了可使用上面的整理方法,还可以计算累计频数和累计频率。

累计频数就是将各类别的频数逐级累加。频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积。二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。累计频率就是各类别的频率(百分比)的逐级累加。它也有向上累积和向下累积两种方法。


数值型数据整理

前面介绍的分类数据和顺序数据的整理方法,同样适用于数值型数据,但数值型数据的整理方法并不适用于分类数据和顺序数据。

数据分组

数据分组是根据研究的需要,将原始数据按某种标准划分成不同的组,分组后的数据称为分组数据。数据的分组方法有两种:一是单变量值分组,是把每一个变量值作为一组,这种分组方法只适合在变量值较少,并且是离散型变量时使用。二是组距分组,是将变量值的一个区间作为一组,适用于连续变量和变量值较多的情况。在组距分组中,一个组的最小值成为下限;一个组的最大值称为上限。