医学统计学(2025春)

中国医科大学 刘红波

目录

  • 1 绪论
    • 1.1 医学统计学概述
    • 1.2 统计学若干基本理念
  • 2 定量资料的统计描述
    • 2.1 频数分布与频数分布图
    • 2.2 集中位置描述
    • 2.3 离散程度描述
    • 2.4 正态分布
    • 2.5 正态分布的应用
  • 3 定性资料的统计描述
    • 3.1 常用相对数
    • 3.2 应用相对数的注意现象
  • 4 总体均数的估计
    • 4.1 均数的抽样误差与标准误差
    • 4.2 t分布
    • 4.3 总体均数估计(1)
    • 4.4 总体均数估计(2)
  • 5 假设检验的基本思想
    • 5.1 假设检验的基本思想
    • 5.2 假设检验的基本步骤
    • 5.3 假设检验的两型错误
    • 5.4 假设检验的注意事项
  • 6 t检验
    • 6.1 t检验
  • 7 卡方检验
    • 7.1 独立样本列联表资料的卡方检验
    • 7.2 独立样本列联表资料的卡方检验
    • 7.3 配对设计资料的卡方检验
  • 8 秩和检验
    • 8.1 Wilcoxon 符号秩和检验(一)
    • 8.2 Wilcoxon 符号秩和检验(二)
    • 8.3 成组设计两样本比较的秩和检验
  • 9 双变量关联性分析
    • 9.1 直线相关的概念与性质
  • 10 直线回归分析
    • 10.1 直线回归方程的建立
    • 10.2 直线回归方程的推断
    • 10.3 直线回归方程的应用
    • 10.4 直线回归分析的注意事项
  • 11 统计表与统计图
    • 11.1 统计表的制表原则与应用
    • 11.2 统计图的制表原则与应用
独立样本列联表资料的卡方检验
  • 1 教学内容
  • 2 练习
  • 3 案例
  • 4 扩展学习

 

χ2检验(chi-square test)
χ2 检验是英国统计学家K.Pearson于1900年提出的,以χ2 分布(chi-square distribution)和拟合优度检验(goodness-of-fit test)为理论依据,是一种应用范围很广的统计方法。
独立样本列联表资料的χ2 检验 
例7.1 某研究者欲比较甲、乙两药治疗小儿上消化道出血的效果,将90名患儿随机分为两组,一组采用甲药治疗,另一组采用乙药治疗,一个疗程后观察结果,见表。问两药治疗小儿上消化道出血的有效率是否有差别? 
表7.1 甲、乙两药治疗小儿上消化道出血的效果

组别

有效

无效

合计

有效率(%)

甲药

27

18

45

60.00

乙药

40

5

45

88.89

合计

67

23

90

74.44

 

两组有效率仅是样本观察的结果,存在抽样误差,不能通过直接比较得到关于两药治疗小儿上消化道出血的有效率有无差别的结论。
两组有效率不同有两种可能:
1. 两药的总体有效率无差别,两样本率的差别仅由抽样误差所致;
2. 两种药物的有效率确有不同。
需进行假设检验。

χ2 检验的基本思想 
表7.2 两独立样本率比较的四格表

组别

属性

合计

Y1

Y2

1

a(T11)

b(T12)

a+b

2

c(T21)

d(T22)

c+d

合计

a+c

b+d

n

 

对于任何两独立样本率的资料,均可表达为表7.2的形式。a、b、c、d为4个基本数据,其余数据均可由这4个数据计算出来,该类型资料称为2×2列联表资料,亦称四格表(fourfold table)资料。 
例7.1的无效假设H0为π1=π2,即两种药物治疗小儿上消化道出血的有效率相同,两样本有效率的差别仅由抽样误差所致。由于此时总体情况未知,故用样本合计有效率对总体率进行估计,即H0为π1=π2=74.44%,在此假设成立的基础上,可以推算每个格子的期望频数,称为理论频数(theoretical frequency),T;从样本观察到的频数称为实际频数(actual frequency),A。若H0成立,两种药物的有效率应接近它们合计的有效率74.44%,则甲药组治疗有效的理论患者数为45×74.44%=33.5(人),即四格表第1行(row)第1列(column)格子的理论频数为: 

 


χ2值反映了实际频数与理论频数吻合的程度。
H0成立,则各个格子的AT相差不应该很大,即统计量χ2值不应该很大;AT相差越大,χ2值就越大,相应的P值也就越小,当P≤α,则AT相差较大,有理由认为无效假设不成立,继而拒绝H0,作出统计推断。 
 

每个格子的≥0,格子越多,χ2值也会越大,即χ2值的大小除了与AT差别的大小有关外,还与格子数(自由度)有关。
n=k-1-s=(R-1)(C-1)
k:格子数,s:估计的参数个数,
R:行数,C:列数。
例7.1中,4个格子,估计了甲、乙两药的有效率,则 k=4,s=2,n=4-1-2=(2-1)(2-1)=1。
四格表资料:
在周边行、列合计不变的条件下, 任一格子的理论频数算出后, 其余3格的理论频数就不能自由变动了, 故能自由取值的格子数为1。
自由度n=1
 
按此Pearson χ2 公式算得的 χ2 值近似服从自由度为n的χ2分布。
χ2分布是一种连续型随机变量的概率分布。设有n个相互独立的标准正态分布随机变量Z1,Z2,...,ZV , 则Z12 +Z22+...+ZV2的分布称为服从自由度为ν的χ2分布:
cn2= Z12 +Z22+...+ZV2


图7.1 3种自由度对应的χ2分布的概率密度曲线 
χ2 分布的形状完全依赖于自由度的大小,随着ν的增加,曲线逐渐趋于对称;当ν趋于∞时,χ2分布逼近正态分布。

χ2分布右侧尾部面积为α时的临界值记为χ2α , ν。χ2检验可以通过查阅χ2界值表,作出统计推断。