医学统计学(2025春)

中国医科大学 刘红波

目录

  • 1 绪论
    • 1.1 医学统计学概述
    • 1.2 统计学若干基本理念
  • 2 定量资料的统计描述
    • 2.1 频数分布与频数分布图
    • 2.2 集中位置描述
    • 2.3 离散程度描述
    • 2.4 正态分布
    • 2.5 正态分布的应用
  • 3 定性资料的统计描述
    • 3.1 常用相对数
    • 3.2 应用相对数的注意现象
  • 4 总体均数的估计
    • 4.1 均数的抽样误差与标准误差
    • 4.2 t分布
    • 4.3 总体均数估计(1)
    • 4.4 总体均数估计(2)
  • 5 假设检验的基本思想
    • 5.1 假设检验的基本思想
    • 5.2 假设检验的基本步骤
    • 5.3 假设检验的两型错误
    • 5.4 假设检验的注意事项
  • 6 t检验
    • 6.1 t检验
  • 7 卡方检验
    • 7.1 独立样本列联表资料的卡方检验
    • 7.2 独立样本列联表资料的卡方检验
    • 7.3 配对设计资料的卡方检验
  • 8 秩和检验
    • 8.1 Wilcoxon 符号秩和检验(一)
    • 8.2 Wilcoxon 符号秩和检验(二)
    • 8.3 成组设计两样本比较的秩和检验
  • 9 双变量关联性分析
    • 9.1 直线相关的概念与性质
  • 10 直线回归分析
    • 10.1 直线回归方程的建立
    • 10.2 直线回归方程的推断
    • 10.3 直线回归方程的应用
    • 10.4 直线回归分析的注意事项
  • 11 统计表与统计图
    • 11.1 统计表的制表原则与应用
    • 11.2 统计图的制表原则与应用
总体均数估计(2)
  • 1 教学内容
  • 2 练习
  • 3 案例
  • 4 扩展学习

 

总体均数的估计
参数估计(parameter estimation):指用样本统计量(statistic)来估计总体参数(parameter) 。
方法:点估计和区间估计。
点估计(point estimation): 是用样本统计量直接作为总体参数的估计值。方法简单,但不能反映抽样误差的影响,无法评价这种估计的可信程度。
总体为某地区2006年所有7岁男童的身高值,总体平均身高m与总体标准差均未知。随机抽取该地150名7岁男童,得到平均身高=123.8cm,标准差S=4.7cm。
可用样本均数123.8 cm作为总体均数m的一个点估计值,即认为该地区所有7岁男童的平均身高为123.8 cm;可用样本标准差4.7cm作为总体标准差s的点估计值。 
区间估计(interval estimation):是按一定的概率(1-a) ,估计总体参数的所在范围,这个范围称为参数的置信区间 (confidence interval, CI)。
预先给定的概率 (1-a)称为置信度(confidence level),常取95%或99%,如果没有特别说明,一般取双侧95%。
置信区间(CLCU)由两个置信限 (confidence limit,CL) 构成。
置信下限(lower confidence limit):CL
置信上限(upper confidence limit):CU
置信区间不包括两个置信限的值。

 

总体均数置信区间的估计


s未知:按 分布原理估计。
总体均数m的双侧1-a置信区间 :

νn-1
样本含量较大时,如 n >100,分布逼近标准正态分布,总体均数的双侧(1-a)置信区间: 
 
例6.3 在某地成年男子中随机抽取25人,测其脉率,得到脉率均数为72次/min,标准差为8次/min.试估计该地成年男性脉率总体均数的95%置信区间.
本例,n=25,=72,S=8
a取双侧0.05, 以ν=25-1=24查t界值表得t0.05/2, 24=2.064 
 

可推断该地成年男性脉率总体均数的95%置信区间为(68.7,75.3)次/min。 
例6.4随机抽取某地200名40岁以上正常人,测定其空腹血糖值, 求得=4.91mmol/L, S=0.72mmol/L,试估计该地40岁以上正常人群空腹血糖值的总体均数的95%置信区间。
本例,n=200,=4.91,S=0.72
a取双侧0.05, Z0.05/2,=1.96
 

可推断该地40岁以上正常人平均空腹血糖值的95%置信区间为(4.81,5.01)mmol/L。
置信区间的正确应用

总体均数的95%置信区间的含义:
从正态总体中重复100次抽样,每次样本含量均为n,每个样本均按计算95%置信区间,则在这100个置信区间中,理论上有95个置信区间包含了总体均数(估计正确),而有5个置信区间未包含总体均数(估计错误),即犯错误的概率是5%。
我们用区间估计的方法估计未知参数时,一方面希望建立的置信区间能以很大的概率包含进未知参数,另一方面又希望这个区间不能太宽,区间越宽说明估计的精确度越低。 
置信区间的两个要素:
第一:准确度(accuracy)
第二:精确度或精密度(precision) 
准确度:
反映置信度(1- a)的大小,即置信区间包含总体均数的概率,若单纯考虑准确度,置信度越接近1越好。
对于同一份资料,就准确度而言,99%的置信区间比95%好。
精确度 / 精密度:反映为置信区间的宽度 CL~CU。
置信区间的宽度取决于的大小,故精确度与变量的变异度大小、样本例数和(1-a)的取值有关。当(1-a)确定后, 个体变异越大,区间越宽;样本含量越小,区间越宽;反之,区间越窄。从精确度的角度来看,置信区间的宽度愈窄愈好。
当样本含量确定后,准确度和精确度是相互牵制的,若提高了置信度,置信区间势必增宽(即减小a,但增大了tZ),精确度会下降,势必降低置信区间的实用价值。不能简单认为99%的置信区间优于95%的置信区间。实际工作中为了较好地兼顾准确度和精确度,一般常用95%置信区间。