医学统计学(2025春)

中国医科大学 刘红波

目录

  • 1 绪论
    • 1.1 医学统计学概述
    • 1.2 统计学若干基本理念
  • 2 定量资料的统计描述
    • 2.1 频数分布与频数分布图
    • 2.2 集中位置描述
    • 2.3 离散程度描述
    • 2.4 正态分布
    • 2.5 正态分布的应用
  • 3 定性资料的统计描述
    • 3.1 常用相对数
    • 3.2 应用相对数的注意现象
  • 4 总体均数的估计
    • 4.1 均数的抽样误差与标准误差
    • 4.2 t分布
    • 4.3 总体均数估计(1)
    • 4.4 总体均数估计(2)
  • 5 假设检验的基本思想
    • 5.1 假设检验的基本思想
    • 5.2 假设检验的基本步骤
    • 5.3 假设检验的两型错误
    • 5.4 假设检验的注意事项
  • 6 t检验
    • 6.1 t检验
  • 7 卡方检验
    • 7.1 独立样本列联表资料的卡方检验
    • 7.2 独立样本列联表资料的卡方检验
    • 7.3 配对设计资料的卡方检验
  • 8 秩和检验
    • 8.1 Wilcoxon 符号秩和检验(一)
    • 8.2 Wilcoxon 符号秩和检验(二)
    • 8.3 成组设计两样本比较的秩和检验
  • 9 双变量关联性分析
    • 9.1 直线相关的概念与性质
  • 10 直线回归分析
    • 10.1 直线回归方程的建立
    • 10.2 直线回归方程的推断
    • 10.3 直线回归方程的应用
    • 10.4 直线回归分析的注意事项
  • 11 统计表与统计图
    • 11.1 统计表的制表原则与应用
    • 11.2 统计图的制表原则与应用
正态分布的应用
  • 1 教学内容
  • 2 案例
  • 3 扩展学习

定量资料的统计描述(三)
第四节 正态分布及其应用 
三、正态分布的应用
(一)估计总体变量值的频率分布
服从正态分布(同性别同年龄正常儿童的身高、同性别健康成人的红细胞数)或对数正态分布(抗体滴度、细菌密度)的变量,已知均数和标准差,根据正态分布曲线下面积分布的规律,可估计其频率分布。
例2.21? 已知120名9岁男孩的肺活量=1.672 L, S=0.298 L,欲估计该市肺活量介于1.200~1.500 L范围内的9岁男孩的比例。
标准化变换:本例n=120为大样本,可用样本均数和样本标准差作为总体均数和总体标准差的估计值,

查附表2 标准正态分布曲线下的面积,值得:
 


估计该市肺活量在1.200~1.500 L范围内的9岁男孩的比例为22.39%。 
(二) 制定医学参考值范围 (medical reference range)
包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围,临床上用作判定正常和异常的参考标准。
制定医学参考值范围的步骤和注意事项:
1.确定观察对象和抽取足够的观察单位
“正常人”:排除了影响所研究变量的疾病和
有关因素的同质人群。
样本含量:每组100例以上。
2.测定方法应统一、准确
采用公认的或权威机构推荐的标准方法。
统一培训操作人员;分析仪器的灵敏度应较高;新仪器、新方法须经校正和验证。
样品采集、运输、储藏和分析中要严格防止污染,实验室内和实验室间通过测定已知浓度的质控样或标准物质来控制分析中的误差。 
3.决定是否分组制定参考值范围
当观察值在性别、年龄、地区、民族、职业组之间的分布差别较明显,而这一差别具有实际意义时,应分组制定参考值范围。
RBC:分性别和成人、儿童制定参考值范围。
考察组间差别的方法:用频数表(或频数分布图)比较各组的分布范围、趋势、高峰位置,若差别明显应分组;假设检验比较组间差别是否具有统计学意义,决定是否分组。 
4.确定取双侧或单侧参考值范围
根据专业知识来确定。
过高或过低均属异常(白细胞计数)— 双侧参考值范围;
仅过高为异常(血铅)— 单侧参考值范围(上限);
仅过低为异常(肺活量)— 单侧参考值范围(下限)。 
5.选定适当的百分界限
“绝大多数”:90%、95%或99%。
正常人和患者的数据分布有交叉,若减少假阴性率,假阳性率增加,二者应兼顾。
用于确诊,旨在减少假阳性,应选99%;用于初筛,旨在减少假阴性,可选90%。 

图2.8 正常人与患者观察值分布重叠示意图 
6.选择制定医学参考值范围的方法
变量是否服从正态分布?正态性检验。
服从正态分布:正态分布法;
服从对数正态分布:用几何均数和几何标准差,按正态分布法算出医学参考值范围,再取反对数;
不服从正态分布:百分位数法。
表2.5 参考值范围的制定

参考值范围(%)

正态分布法

百分位数法

双侧

单侧

双侧

单侧

只有下限

只有上限

只有下限

只有上限

95

P2.5-P97.5

P5

P95

99

P0.5-P99.5

P1

P99

 

例2.22 某地调查正常成年男子200人的红细胞数,
=55.26×1012/L,S=0.38×1012/L,试估计该地正常成年男子红细胞数的95%参考值范围。
红细胞数服从正态分布、过多过少均属异常。
双侧95%参考值范围为:
下限:55.26-1.96×0.38=54.52(×1012/L)
上限:55.26+1.96×0.38=56.00(×1012/L)
该地正常成年男子红细胞数的95%参考值范围为54.52×1012/L~56.00×1012/L。 
例2.23? 2005年某市进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量,
=1.672 L,S=0.298 L,试估计该地小学生中9岁男孩的肺活量的95%参考值范围。
肺活量为正态分布、过低属异常。
单侧95%参考值范围
下限:1.672-1.64×0.298=1.183(L)
该地9岁男孩肺活量的95%医学参考值范围为不低于l.183 L。 
例2.24 抽样测定某城市125名55~60岁组健康男性居民的血清低密度脂蛋白(LDL-C) 含量(mmol/L),如表4.6所示,试制定该市55~60岁组健康男性居民的血清LDL-C的95%参考值范围。
血清LDL-C呈负偏态分布、过高过低均为异常。
用百分位数法,估计双侧95%参考值范围:

该市55~60岁组健康男性居民的血清LDL-C的95%参考值范围为1.49~4.58 mmol/L。 
表2.6 某市125名55~60岁健康居民男性LDL-C(mmol/L)频数分布


组段

频数

累计频数

累计频率(%)

1.3~

5

5

4.0

1.6~

2

7

5.6

1.9~

4

11

8.8

2.2~

5

16

12.8

2.5~

4

20

16.0

2.8~

11

31

24.8

3.1~

14

45

36.0

3.4~

15

60

48.0

3.7~

19

79

63.2

4.0~

27

106

84.8

4.3~

17

123

98.4

4.6~

2

125

100.0

(三) 质量控制
实验检测误差服从正态分布。
上、下警戒限(UWL、LWL);
?上、下控制限(UCL、LCL)。
常用质控工具:控制图。
检测结果落在警戒限之内,说明分析质量在控制之中;如果在20次以上的检测结果中,有检测结果频繁地越出警戒限(连续2个检测结果)或有1个检测结果越出控制限,说明发生了失控,需采取应对措施。

图2.9控制图示意
(四) 正态分布是许多统计方法的理论基础
检验、检验及相关回归分析等要求分析的变量服从正态分布或近似正态分布。
非正态分布资料,先作变量转换,再按正态分布方法作统计处理。
秩和检验中有些检验统计量,当样本足够大时近似正态分布,可按正态分布的方法作统计处理。