目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
随机性和抽样误差

统计学存在的价值其实就是因为数据的不确定性,以及由此产生的抽样误差,没有不确定性,没有抽样误差统计学的存在就没有理由了。

随机性


什么是随机性?结果你无法预料时,这就是随机现象,比如你不知道掷骰子会出现多大的点数,你也不知道吸烟是否会让你得癌症,你不知道今天老师上课是不是会点你的名?这些都是随机现象句。

随机是不确定的,比如两个人都得的是高血压,在服用同一种药物后,有的人没有变化,有的人血压会降低,有的人血压会变高,这就是不确定性,同样的成绩考入一所大学,如果再进行一次高考,那么这两个人的成绩可能会不一样。

抽样误差

即使是一个代表性非常好的样本,他也无法真正等同于总体的,总会存在一定的抽样误差,那么到底什么是抽样误差呢?

比如想了解大一新生的平均身高,假设今年有1000名新生,由于经费人力时间等限制,我只能从中抽取一个样本来推断1000名新生的身高,我随机从中抽取了100人,由于每个人抽中的概率是完全相同的,因此我无法知道我抽取的是哪100个人,这100个人的平均身高,比如是175厘米,那么我推断今年2019级新生的平均身高是175厘米。有些同学可能发现了,比如我再做一次抽样,可能抽中的是另外100人,这100人的平均身高可能是172厘米,如果另外一名同学再做一次抽样的话,有可能这,100人的平均身高是177厘米。理论上这种抽样可以做很多次,而每次的平均身高都是不一样的,这种不同就是所谓的抽样误差,由于抽样误差的存在,如果我们用样本的统计量,据直接估计总体的参数,则肯定会有一定的偏差,幸运的是我们有统计量能够测量这种偏差的大小。偏差越大说明抽样误差也越大,那么样本的代表性就不是很强,这种情况下我们需要加大样本量,否则结果就是不可靠的。