目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数值型数据统计推断

点估计

如果用一个数来估计总体的参数,那么这种估计叫做参数的点估计。简言之,点估计是一个用来估计参数值得数。点估计的常用方法有矩估计法、顺序统计量法、极大似然法、最小二乘法等。

我们提出这样一个问题:研究大学生在大学阶段平均出游的次数。研究这个问题我们需要进行抽样调查,以样本得到的数据来估计总体的参数。如果在一次抽样调查中,计算到大学生在大学阶段平均出游的次数为2.4次,那么这个数就可以作为总体均值的点估计。也就是说利用样本统计量来估计总计参数的点估计是合理的。

那么这个点估计好吗?

由于一个来自样本的特别的估计值绝不会精确地等于总体参数的真值,所以问某一个值是否是好的估计值是没有意义的。而可以问的是计算估计值的方法是不是一个好方法。

为了确定一个方法的好坏,需要对多次重复同一个研究所得的结果进行比较。下面让我们用一个假想的实验来说明。假设我们做了多次抽样调查,每一次都可以得到一个均值。同时假设这些抽样都是理想抽样,而唯一的误差就是抽样误差。


评价估计量好坏的标准

好的估计是无偏估计。如果在无数个样本上应用该估计方法,得到的估计的均值等于总体参数的真值,(上面例子中10个估计值的平均是2.4)。我们说样本均值的估计

是总体均值的的无偏估计。虽然每一次的结果可能不对,但多个重复抽样结果的平均就是对的。如果重复抽样后得到的许多统计量的均值仍不能等于总体的真值,就称这种估计是有偏的。某个统计量是否无偏通常可以用数学证明。

好的无偏估计是有效的。估计量与总体之间必然存在着一定的误差,衡量这个误差大小的一个指标就是方差,如果两个统计量的抽样分布有相同的均值,方差越小,估计量对总体的估计也就越准确,这个估计量也就越有效。方差可以衡量估计值距离真值的距离,好的估计中许多重复抽样所得到的估计量不应该离真值太远。前面例子中,10个样本统计量的方差是0.0306。可以证明,任何别的通过样本来估计总体均值的方法其效果都因为抽样误差太大而给出更坏的结果。所以即使上面的结果不太理想,也是能得到的最好的了。同样也可以证明样本均值是总体均值的一个好的估计,比用样本中位数等来估计总体均值要更有效。这是因为在多数情况下,在多个样本上计算出的样本均值比它们计算出来的其它的样本统计量的值能更紧密地聚集在总体均值周围。

好的估计具有一致性。一致性指的是当样本量逐渐增加时,样本的统计量能够逐渐逼近总体参数。即一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。


矩估计

它是由英国统计学家皮尔逊Pearson于1894年提出的,也是最古老的一种估计法之一。对于随机变量来说,矩是其最广泛,最常用的数字特征,主要有中心矩和原点矩。由辛钦大数定律知,简单随机样本的原点矩依概率收敛到相应的总体原点矩,这就启发我们想到用样本矩替换总体矩,进而找出未知参数的估计,基于这种思想求估计量的方法称为矩法。用矩法求得的估计称为矩法估计,简称矩估计。

通常我们按照如下步骤求解矩估计:

第一步 根据题目给出的概率密度函数,计算总体的原点矩(如果只有一个参数只要计算一阶原点矩,如果有两个参数要计算一阶和二阶)。由于有参数这里得到的都是带有参数的式子。如果题目给的是某一个常见的分布,就直接列出相应的原点矩

第二步 根据题目给出的样本。按照计算样本的原点矩。

第三步 让总体的原点矩与样本的原点矩相等,解出参数。所得结果即为参数的矩估计值。

极大似然估计

说的通俗一点,极大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值(模型已知,参数未知)。数学上来说,极大似然估计其实是理想地认为,对于极少的样本观测,我们很可能观测到的就是发生概率最大的那次实现。

一个小故事:有一个业余的猎人新手和一名资深猎人,他们一人一把枪地跑去打猎,砰地一声枪响,一头小鹿应声倒地,这时候问你:更可能的情况是猎人打中了还是新手打中了?在这个故事里,发生的某事件是小鹿被打中,我们关心的事情是谁打中了小鹿,的可能的情况有猎人打中或新手打中,极大似然估计是猎人打中。

极大似然估计是我们在日常生活当中比较常用的思考模式。比如你妈回家就见到你在玩电脑游戏,她就会说,怎么一天就知道玩。对于上面这个场景来说,你母亲就的确做了极大似然估计。     



区间估计

如果给出两个数,指出参数位于其间,那么这种估计叫做参数的区间估计。

对于大多数总体参数,估计区间是用如下方法找到的:首先要找一个样本统计量如均值;然后从数据中计算出抽样误差;最后用样本统计量加、减抽样误差就得到了估计区间的两个端点。用这三步得到的区间称为置信区间,一个被统计学家认为能够包含参数真值的区间。一个总体参数的置信区间是用一个样本统计量加、减抽样误差得到的:

(统计量-抽样误差,统计量+抽样误差)

区间估计是用于参数估计值的一个范围。一个区间比一个单值能提供更多的信息,但构造和解释这类区间则更困难些。大多数估计总体参数的区间可以这样被找到:

第一步 计算样本统计量如均值;

第二步 计算抽样误差;

第三步 用样本统计量加、减抽样误差。

这样就得了一个区间,它被称为总体参数的置信区间。

在来自不同样本的多个置信区间当中包含未知的总体参数的区间所占的百分比称为置信水平。置信水平为95%的意思是多次抽样中有95%的置信区间包含未知的总体参数值而另外的5%则不包含真值。至于在一次抽样得到的置信区间是包含总体参数的众多区间中的一员呢,还是属于个别不含参数值的区间就永远不得而知了。

短的置信区间包含的信息比长的多。可以通过增加样本容量或降低置信水平这两种方法来获得较短的置信区间。当一个调查有大约1200个响应者时抽样误差是±3%,也就是说在100个不同的样本中大约有95个样本百分比的值与总体百分比的值相差不到3%。新闻报导中通常利用给出95%置信水平的抽样误差。


1、总体均值的区间估计

2、总体比例的区间估计

3、两个总体均值之差的估计

4、两个总体比例之差的区间估计


样本容量确定

我们在进行参数估计的时候,总是希望估计的置信度更高。如果要提高置信度,可以扩大置信区间,但置信区间太宽往往是没有意义的。比如我们提到的研究大学生在校期间的出游次数,如果置信区间在(0,10),这是很可靠的,但却是没有意义的,因为大部分大学生在校期间出游次都被包含在了里面。想要缩小置信区间,又不想降低置信度,我们还有一种方法,增加样本量。其实,样数本容量不仅对于估计的精准度有所影响,样本容量的大小主对于抽样调查过程和结果都有很大影响,因为样本容量太大,会造成人力、物力和财力的很大浪费;样本容量太小,会使抽样误差太大,使调查结果与实际情况相差很大,影响调查的效果。

所以我们要确定科学的、合理的样本容量,一方面,可以在既定的调查费用下,使抽样误差尽可能小,以保证估计的置信度和可靠性;另一方面,可以在既定的置信度和可靠性下,使调查费用尽可能少,保证估计的最大效果。