目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据来源

观察


一些数据的获取需要通过观察的方式获得,比如我们想知道早高峰通过某条街道的机动车数量,或者节假日某商场的客流量,或者了解狼群的生活模式等等诸如此类。此时,观察就能获得数据,狼群的数量,活动范围,雌雄狼的数量,猎食频率等可能是我们感兴趣的变量。比如研究吸烟与肺癌之间是否相关,相关程度有多大?通常所采用的方法是通过调查来收集所需的信息,并对其进行统计分析。研究人员通过收集吸烟和不吸烟者的观察数据,观察肺癌患者的数量,最后进行分析研究。通过观察获取数据要遵守一个原则,就是不能打扰观察个体。

实验

有时候我们需要打扰部分个体的行为以便知道个体的反应时,需要通过实验来获取数据。统计学的实验和物理、化学实验有很大不同,通常是通过对部分个体进行某种改变而一些个体维持原样来测量个体的变化。比如某种新药能够降低得心脏病的风险,学生更喜欢线上教学方式还是线下教学方式,给刑满释放的人员提供技能培训能否降低再次犯罪的可能?不同于物理、化学中的实验,统计学的实验有着一些限制。比如研究吸烟是否会增大患肺癌的可能性,我们不能让一部分人通过吸烟的方式观察是否会患肺癌,这样存在道德风险。如果想了解实施某项政策是否提高就业率,也不可能通过实施政策进行实验,即使可以做,但是这样的实验只能做一次,不能在保证同一情况下反复做实验。这类实验在经济学、金融学和社会学中常常遇到,不能保证每次实验都在同一条件下进行,而且以人为实验对象的实验会面临道德风险和法规约束。


 抽样调查

不用把整锅汤都喝完,才告诉汤的味道咸或淡一样,我们也不需要把所有的人都调查一遍才告诉你结论。我们可以通过调查一部分人来对大部分人进行推断,这就是抽样调查的精髓所在。

抽样调查的研究目标,只是总体中的一部分人,选中这一部分人,不是因为对他们感兴趣,而是因为这一部分人是是大部分人的一个代表,也就是说具有代表性。代表性高的样本就是一个“好”的样本,那么怎么才算是具有代表性呢?由于我们抽样时不能带有主观性和偏向性,所以满足随机原则的样本代表性要好的多。随机原则就是在抽样中排除主观性的、有偏向的意识,让总体中每一个个体都有相同的机会选入抽取的样本中。

常见的随机抽样方法有简单随机抽样、系统抽样、分层抽样和整群抽样等。

简单随机抽样是从N个总体中抽取n个样本,每个样本被抽中的概率相同。简单随机抽样用的是与人为因素无关的随机方式来选取样本。用随机方式选出的样本,既不会受取样者的偏好所影响,也不会受回应者个人的选择影响,随机方式选取样本是通过赋予每个个体同样的入选机会来消除偏差的,无论年龄、性别、民族,每个人选中的概率都是一样的。举个例子,比如说,我要在100个同学中抽取10个人,那么我先准备100个卡片,上面写上每个人的名字,然后放到“帽子”里搅拌均匀,从中抽取10张卡片,抽中的10个人就是样本,这就是简单随机抽样。在统计学的世界里,这里的“帽子”,我们称之为抽样框。只有100张卡片我们可以放到帽子里,从1000万人中抽取100个,就不能从帽子里抽取了,此时我们可以通过电脑产生随机数字来选取样本。

普查

抽样调查只是调查了总体的一部分,那么为什么不观察所有的个体呢?理由和成本有关,比如,没有那么多的财力、物力、人力支持,或没有时间完成对总体的调查。普查就是对所有的个体都进行的调查。对重要的国情国力,采用的是普查方式,普查能够获得详细全面的统计数据。比如最常见的是全国人口普查,我国目前的人口普查每隔10年进行一次,通常是年份位尾数为0的年份进行,2010年是我国第6次人口普查年。另外,我国还有经济普查,每10年进行两次,年份尾数为3和8的年份进行,2018年进行了第4次经济普查。另外每隔10年我国还会进行农业普查,年份尾数为6的年份进行,2016年进行了第3次农业普查。无论是从时间还是从金钱的角度来看,抽样调查,都比普查要划算,我们为什么要做普查呢?有时候我们需要,每个地区的详细资料,比如人口、经济、农业等详细数据,合理掌握这些数据,能够对印象居民经济、社会生活做出正确的决策指导,提供数据支持。需要注意的是普查也不能做到不出错,而且普查的问题不能太多。随着科技手段的日新月异,全国性的普查工作,也有可能用其他方式去替代,大规模的抽样调查。



拓展阅读:

为什么说在你的朋友圈投放的问卷没有代表性?

源地址:https://mp.weixin.qq.com/s/fWO0z90cNi1B20d2N2n0yg

或者阅读pdf文件