-
1 教学内容
-
2 练习
-
3 案例
-
4 扩展学习
总体均数的估计
参数估计(parameter estimation):指用样本统计量(statistic)来估计总体参数(parameter) 。
方法:点估计和区间估计。
点估计(point estimation): 是用样本统计量直接作为总体参数的估计值。方法简单,但不能反映抽样误差的影响,无法评价这种估计的可信程度。
总体为某地区2006年所有7岁男童的身高值,总体平均身高m与总体标准差s 均未知。随机抽取该地150名7岁男童,得到平均身高
=123.8cm,标准差S=4.7cm。
可用样本均数123.8 cm作为总体均数m的一个点估计值,即认为该地区所有7岁男童的平均身高为123.8 cm;可用样本标准差4.7cm作为总体标准差s的点估计值。
区间估计(interval estimation):是按一定的概率(1-a) ,估计总体参数的所在范围,这个范围称为参数的置信区间 (confidence interval, CI)。
预先给定的概率 (1-a)称为置信度(confidence level),常取95%或99%,如果没有特别说明,一般取双侧95%。
置信区间(CL,CU)由两个置信限 (confidence limit,CL) 构成。
置信下限(lower confidence limit):CL
置信上限(upper confidence limit):CU
置信区间不包括两个置信限的值。
总体均数置信区间的估计
s未知:按 t 分布原理估计。
总体均数m的双侧1-a置信区间 :![]()
ν= n-1
样本含量较大时,如 n >100,t 分布逼近标准正态分布,总体均数的双侧(1-a)置信区间: ![]()
例6.3 在某地成年男子中随机抽取25人,测其脉率,得到脉率均数为72次/min,标准差为8次/min.试估计该地成年男性脉率总体均数的95%置信区间.
本例,n=25,
=72,S=8
a取双侧0.05, 以ν=25-1=24查t界值表得t0.05/2, 24=2.064
可推断该地成年男性脉率总体均数的95%置信区间为(68.7,75.3)次/min。
例6.4随机抽取某地200名40岁以上正常人,测定其空腹血糖值, 求得
=4.91mmol/L, S=0.72mmol/L,试估计该地40岁以上正常人群空腹血糖值的总体均数的95%置信区间。
本例,n=200,
=4.91,S=0.72
a取双侧0.05, Z0.05/2,=1.96
可推断该地40岁以上正常人平均空腹血糖值的95%置信区间为(4.81,5.01)mmol/L。
置信区间的正确应用
总体均数的95%置信区间的含义:
从正态总体中重复100次抽样,每次样本含量均为n,每个样本均按
计算95%置信区间,则在这100个置信区间中,理论上有95个置信区间包含了总体均数(估计正确),而有5个置信区间未包含总体均数(估计错误),即犯错误的概率是5%。
我们用区间估计的方法估计未知参数时,一方面希望建立的置信区间能以很大的概率包含进未知参数,另一方面又希望这个区间不能太宽,区间越宽说明估计的精确度越低。
置信区间的两个要素:
第一:准确度(accuracy)
第二:精确度或精密度(precision)
准确度:
反映置信度(1- a)的大小,即置信区间包含总体均数的概率,若单纯考虑准确度,置信度越接近1越好。
对于同一份资料,就准确度而言,99%的置信区间比95%好。
精确度 / 精密度:反映为置信区间的宽度 CL~CU。
置信区间的宽度取决于
的大小,故精确度与变量的变异度大小、样本例数和(1-a)的取值有关。当(1-a)确定后, 个体变异越大,区间越宽;样本含量越小,区间越宽;反之,区间越窄。从精确度的角度来看,置信区间的宽度愈窄愈好。
当样本含量确定后,准确度和精确度是相互牵制的,若提高了置信度,置信区间势必增宽(即减小a,但增大了t或Z),精确度会下降,势必降低置信区间的实用价值。不能简单认为99%的置信区间优于95%的置信区间。实际工作中为了较好地兼顾准确度和精确度,一般常用95%置信区间。

