统计学存在的价值其实就是因为数据的不确定性,以及由此产生的抽样误差,没有不确定性,没有抽样误差统计学的存在就没有理由了。
随机性
什么是随机性?结果你无法预料时,这就是随机现象,比如你不知道掷骰子会出现多大的点数,你也不知道吸烟是否会让你得癌症,你不知道今天老师上课是不是会点你的名?这些都是随机现象句。
随机是不确定的,比如两个人都得的是高血压,在服用同一种药物后,有的人没有变化,有的人血压会降低,有的人血压会变高,这就是不确定性,同样的成绩考入一所大学,如果再进行一次高考,那么这两个人的成绩可能会不一样。
抽样误差
即使是一个代表性非常好的样本,他也无法真正等同于总体的,总会存在一定的抽样误差,那么到底什么是抽样误差呢?
比如想了解大一新生的平均身高,假设今年有1000名新生,由于经费人力时间等限制,我只能从中抽取一个样本来推断1000名新生的身高,我随机从中抽取了100人,由于每个人抽中的概率是完全相同的,因此我无法知道我抽取的是哪100个人,这100个人的平均身高,比如是175厘米,那么我推断今年2019级新生的平均身高是175厘米。有些同学可能发现了,比如我再做一次抽样,可能抽中的是另外100人,这100人的平均身高可能是172厘米,如果另外一名同学再做一次抽样的话,有可能这,100人的平均身高是177厘米。理论上这种抽样可以做很多次,而每次的平均身高都是不一样的,这种不同就是所谓的抽样误差,由于抽样误差的存在,如果我们用样本的统计量,据直接估计总体的参数,则肯定会有一定的偏差,幸运的是我们有统计量能够测量这种偏差的大小。偏差越大说明抽样误差也越大,那么样本的代表性就不是很强,这种情况下我们需要加大样本量,否则结果就是不可靠的。

