大数定律
迄今为止,人们已经发现很多大数定律,所谓大数定律,在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
例如,大量抛掷硬币正面出现的频率;生产过程中的废品率;字母使用频率,等等。在大量的随机实验中事件发生的频率稳定于某一常数,测量值的算术平均值具有稳定性。这个常数实际上就是事件发生的概率。“大数”的意思就是指试验数目是大量的。下面举一个具体的例子,有一所上万名学生的大学,每人有其身高。如果我们随机观察一个学生的身高,则与全校学生平均身高一般差别比较大。如果我们观察10个学生的身高而取平均,则它有更大的机会(概率)与真实值更接近些。这些都是我们日常经验中所体验到的事实,而大数定律则对这一点从理论的高度给予概括。
中心极限定理
有时候统计学就像魔术一样能够从少量的数据中推断出不可思议的结论。比如我们只需要对上千个人进行电话调查,就能知道全国的失业率。对一家企业抽查100件产品,就知道这些企业的所有产品是否合格。这些一概而论的强大能力到底是从哪里来的呢?绝大多数其实来自于中心极限定理。中心极限定理是许多统计活动的源泉,这些活动有一个共同的特点。那就是使用样本对一个更大的数量的对象进行推断,这种推断看上去似乎很神秘。但事实上它们只是我们已经探讨过的两个工具相结合的产物,这两个工具是概率和抽样。
在实际问题中常常需要考虑许多随机因素所产生的综合影响。例如,假如你所生活的城市正在举办一场专业的马拉松赛事,来自世界各国的运动员齐聚一堂,准备一决高下,但是他们中很多人都不会说普通话。这一天有四名运动员外出,找不到了。于是发动大家一起找。偏偏很巧的是,在你家附近有一辆汽车,车上上面坐着四个人,穿着宽松的运动服,他们没有一个人会说普通话。你肯定想这大概就是那辆失踪的汽车。但是此时有一个疑惑,这辆车上的乘客看上去没有那么瘦。粗略扫一眼这些人,你觉得这些乘客的平均体重应该在100公斤左右。而你潜意识中认为专业的马拉松运动员一般体重不可能这么重,于是你推断出可能不是这辆车。进一步调查后也证实你的判断是正确的。在现场的翻译人员经过交流后,知道这辆车的四个人原本是参加国际美食节的。参加美食节的人也可能穿着宽松的运动裤。如果你能够体会上述的推理过程,也就是说通过快速观察车上乘客的体型来判断他们并非专业的马拉松运动员,那么你就已经领会了中心极限定理的基本理念。一旦理解了中心极限定理,统计推断的绝大多数形式将会变得非常直观。
中心极限定理的核心就是从总体中合理地抽取一个样本,与其所代表的总体之间存在着相似关系。当然每个样本之间肯定存在差异,但是任何一个样本与总体之间存在巨大差异的可能性不大,也就是概率比较低。以上述例子来看,的确专业的马拉松运动员也有比较胖的,但是绝大多数专业马拉松运动员还是比较瘦弱的,因此一次出现四位重量级的运动员在一辆车上的概率可以说是非常非常低的。所以完全有理由认为这不是那辆失踪的车。当然你的判断有可能是错的。但是概率告诉我们你对的可能性更大一些,这就是中心极限定理背后的经验。
通过用中心极限定理,我们能够对如下的事情做出推断。一是如果我们掌握了某个群体的具体信息,就能推断出这个群体中正确抽取随机样本的情况。例如,我们知道了400名学习统计学学生的成绩的平均分和标准差。过了一段时间后,要想知道统计学的教学质量如何?如何去衡量这样的事情呢?我们可以从现在的学生中抽取50名学生进行测试。这50名学生的成绩作为考核统计学教学质量的指标之一。是否需要担心这50名学生的成绩能不能衡量出400名学生的平均水平?根据中心极限定理,这50名学生作为一个随机样本,其平均成绩不会与400名学生的平均成绩产生较大的差异。二是掌握了某个正确抽取的样本的具体信息,就能推断出这个样本所代表的的总体情况。所以上面的例子反过来也能推断,比如说学院分管教学的领导想要知道统计学的教学质量如何?随机抽取了50名学生进行测试,得到了这50名学生的平均成绩和标准差的数据。那么根据这50名学生的成绩对整个400名学生的教学质量做出判断是否可行呢?答案是可行的。因为中心极限定理告诉我们一个正确抽取的样本不会与其代表的总体之间产生较大差异。也就是说随机抽取的50人的成绩能够很好的体现总体的情况。三是如果掌握了某个样本的数据以及某个总体的数据,就能推断出样本是否是该总体的样本之一。以上述马拉松选手为例,比如我们已经知道专业的马拉松选手平均体重在75公斤左右,通过目测知道一辆车里四个人的体重超过100公斤,那么该样本属于专业的马拉松比赛选手的概率就非常非常低。因此我们可以推断出该样本不属于马拉松专业选手总体。四是如果已经知道了两个样本的基本特性,就能推断出这两个样本是否取自于同一总体。再以上述例子分析,如果一次性发现了两辆车,一辆,四个人是参加国际美食节的,另一辆车是参加国际马拉松比赛的选手。通过目测发现两辆车的乘客平均体重有较大差异。比如一辆车上的乘客平均体重是72公斤,另一辆辆车上的乘客平均体重是110公斤,那么只要记住中心极限定理背后的逻辑,就可以判断出两辆车上乘客从同一群体中随机抽样的样本的可能性是非常非常低的。但依据中心极限定理做这样的推断,其实还是有可能犯错误的。只是犯错误的概率是很低的。以上的分析全部来自于中心极限定理,根据中心极限定理任意一个总体的样本平均值都会围绕在该总体的平均值周围。并且呈现出正态分布。举个例子来看,比如家庭收入并不是呈现正态分布的,有些人的收入非常低,而有些人的收入又高的离谱。假设所有家庭的平均收入是7万元,那么根据中心极限定理得出的结论是,任何一个样本的平均值将会约等于总体的平均值。也就是说,如果能合理地从总体中抽取1000个家庭。当然这样的抽取的家庭应该具有良好的代表性,既要有无家可归者、也要有收入低的家庭、收入中等的家庭和收入很高的富豪。那么我们可以推断这样仅仅包含1000个家庭的代表性样本的家庭年平均收入应该在7万元左右。这个数字可能并不准确,但是不会差的太多,当然一次抽样的误差可能会有些大。假设我们可以连续抽样100次,每次都抽样1000个家庭,并将它们的平均值出现的频率在坐标轴上标出。那么我们可以看出在7万元左右周围将会呈现一个熟悉的钟形曲线。也就是正态公布。还需要知道的是,为了能够用中心极限定理进行推断,样本数量必须足够多,经验法则告诉我们至少要有30个。
自从高斯指出测量误差服从正态分布之后,人们发现正态分布在自然界中极为常见。观察表明如果一个量是有大量相互独立的随机因素的影响所造成,而每一个别因素在总影响中所起的作用不大,则这种随机变量一般都服从或近似服从正态分布。在统计学,常把证明其极限分布为正态分布的定理统称为中心极限定理。

