目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据类型

统计数据是对社会经济现象进行测量的一个结果,比如对经济活动总量的测度可以通过国内生产总值数据来展现,对企业活动,可以采用成本、收入和利润来衡量,银行对信用卡客户是否违约可以通过优良中差来决定,人口性别可以通过男女来表示,由此可见,数据可以分为不同的类型。

定类数据、顺序数据、数值型数据

数据按照计量尺度分类可以大致分为:定类数据、顺序数据和数值型数据三大类。

定类数据(categorical data) 是只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字或数字来表述,比如,人口按性别分为男、女两类,比如我国有56个民族,每个民族类别就是定类数据。

顺序数据(rank data) 是只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字或数字来表述,比如,产品分为一等品、二等品、三等品、次品等,学生的学习成绩分为优良中差,教师职称分为教授,副教授,讲师和助教4个等级,也可以用数字表示每一类。顺序数据之间存在大小关系,上一级别要比下一级别大(或小)。

数值型数据(metric data)是按数字尺度测量的观察值,结果表现为具体的数值,是对事物的精确测度。今天天气很冷,只有零下3度,45岁的张三去5公里以外的银行取出本月收入8124元,这些数据都是数值型数据。在数值型数据中,有时还会精确的划分为定距数据和定比数据。

比如我说今天的温度比昨天高5度,这是有实际意义,但是我说今天的温度和昨天的温度相加起来是40度,这没什么太大意义的。也就是说有些数据能够做减法而不能做加法。此类数据就属于定距数据,他们都有一个数据上的零点,所有其他数据和它有一定的距离,这个距离是有意义的,定序数据大多只能用加法或减法运算。

另外一类数据是定比数据,此类数据不但可以做加法或减法运算,还可以做乘法或除法运算,比如张三的收入是4000元,李四的收入是2000元,我们可以说张三比李四收入多2000元,也可以说张三的收入是李四收入的两倍,这都是很有意义的,此类数据由于可以进行比较,所以被称为定比数据。

定类数据和顺序数据说明的是事物的品质,特征,性质,通常是用文字来表述的,其结果均表现为类别,因而也可以统称为定性数据或品质数据。数据说明的是数量特征,通常用数值来表现,称为定量数据或数量数据。

观察数据和实验数据

按照统计数据的收集方法,可以将其分为观察数据和实验数据,观察数据是通过调查或观察而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观察数据,实验数据则是在实验中控制实验对象啊,收集到的数据,比如对一种新药疗效的实验数据,或对一种新的农作物品种的实验数据,自然科学领域的大多数数据都是实验数据。

横截面数据和时间序列数据

按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据,截面数据是在相同或近似相同的时间点上设计的数据,这类数据通常是在不同的空间上获得的,用于描述现象的某一时刻变化特征,2019年,地区的居民消费价格指数,就是横截面数据,时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况,比如2010年到2019年我国的国内生产总值数据就是时间序列数据。


区分数据的类型是十分重要的,因为对于不同类型的数据需要采用不同的统计方法来处理和分析,比如对于定类数据,我们通常计算出各组的频率或频数计算重数,一种比率进行列联表分析和卡通检验的,对顺序性数据可以计算其中位数和四分位差,计算等级相关系数的,对数值型数据可以用更多的统一方法进行分析,比如各种统计量参数,估计检验回归分析等等。