医学统计学(2023秋)

中国医科大学 刘红波

目录

  • 1 绪论
    • 1.1 医学统计学概述
    • 1.2 统计学若干基本理念
  • 2 定量资料的统计描述
    • 2.1 频数分布与频数分布图
    • 2.2 集中位置描述
    • 2.3 离散程度描述
    • 2.4 正态分布
    • 2.5 正态分布的应用
  • 3 定性资料的统计描述
    • 3.1 常用相对数
    • 3.2 应用相对数的注意现象
  • 4 总体均数的估计
    • 4.1 均数的抽样误差与标准误差
    • 4.2 t分布
    • 4.3 总体均数估计(1)
    • 4.4 总体均数估计(2)
  • 5 假设检验的基本思想
    • 5.1 假设检验的基本思想
    • 5.2 假设检验的基本步骤
    • 5.3 假设检验的两型错误
    • 5.4 假设检验的注意事项
  • 6 t检验
    • 6.1 t检验
  • 7 卡方检验
    • 7.1 独立样本列联表资料的卡方检验
    • 7.2 独立样本列联表资料的卡方检验
    • 7.3 配对设计资料的卡方检验
  • 8 秩和检验
    • 8.1 Wilcoxon 符号秩和检验(一)
    • 8.2 Wilcoxon 符号秩和检验(二)
    • 8.3 成组设计两样本比较的秩和检验
  • 9 双变量关联性分析
    • 9.1 直线相关的概念与性质
  • 10 直线回归分析
    • 10.1 直线回归方程的建立
    • 10.2 直线回归方程的推断
    • 10.3 直线回归方程的应用
    • 10.4 直线回归分析的注意事项
  • 11 统计表与统计图
    • 11.1 统计表的制表原则与应用
    • 11.2 统计图的制表原则与应用
频数分布与频数分布图
  • 1 教学内容
  • 2 练习
  • 3 案例
  • 4 扩展学习

定量资料的统计描述(quantitative data) 
统计分析:统计描述;统计推断。 
统计描述:用适当的统计表、统计图和统计指标来表达资料的特征或规律。 
频数分布表(frequency table) 
将组别和相应的频数列表 --- 频数表。 
频数(frequency):不同组别的观察值个数 
离散型定量变量的频数表 
某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。 
制作离散型定量变量的频数表: 
1. 按变量的取值分组; 
2. 列出各组的频数。

表2.1 2005年某市102名高中男生引体向上完成次数的频数分布


完成次数(1)

频数f(2)

频率(%)(3)

累计频数(4)

累计频率(%)(5)

2

3

2.94

3

2.94

3

7

6.86

10

9.80

4

16

15.69

26

25.49

5

33

32.35

59

57.84

6

24

23.53

83

81.37

7

14

13.73

97

95.10

8

4

3.92

101

99.02

9

1

0.98

102

100.00

合计

102

100.00

-

-


连续型定量变量的频数表 
在某市2005年进行的小学生体质评价研究中, 测定了120名9岁男孩的肺活量(L), 
根据该资料制作频数表。

1.706

1.326

1.632

1.876

2.161

1.684

1.533

1.175

1.867

1.676

2.091

1.847

1.213

1.277

0.989

2.235

1.665

1.289

1.724

1.548

1.608

1.890

1.733

1.796

1.203

1.736

1.450

1.633

1.555

1.352

1.832

1.444

1.737

1.459

1.450

1.782

1.555

1.634

1.508

2.343

1.509

1.745

1.953

1.744

1.695

1.707

1.901

1.825

1.597

1.646

1.708

1.711

1.856

1.644

1.716

1.978

1.534

1.900

1.595

1.646

1.905

1.610

1.614

1.422

2.301

2.127

1.348

1.317

1.062

1.830

1.980

1.570

1.495

1.864

2.170

2.000

1.705

1.863

1.424

2.022

2.068

1.576

1.833

1.659

2.212

1.399

2.128

1.543

1.562

1.382

1.291

1.796

1.647

1.415

1.873

0.996

1.936

1.526

1.424

1.589

1.670

1.056

1.969

1.481

2.406

2.123

1.988

1.512

1.030

1.886

1.930

1.725

1.374

1.654

1.663

1.438

1.645

1.214

1.184

1.735

 

制作连续型定量变量的频数表: 
1.求全距(range)/极差: R=最大值-最小值。 
2.划分组段。 
确定组数:n<50,分5~8组; n>=50,分9~15组,可灵活掌握。本例n=120,拟分11个组。 
确定组距:组距=R/组数,可适当取整。 
本例组距=1.417/11=0.129,可取0.130为组距。 
确定各组段的上限(upper limit) 和下限(lower limit)
3.统计各组段频数。

表2.2 2005年某市120名9岁男孩肺活量(L)频数分布


组段(1)

频数(f)(2)

频率(%)(3)

累计频数(4)

累计频率(%)(5)

0.980~

5

4.17

5

4.17

1.110~

5

4.17

10

8.33

1.240~

7

5.83

17

14.17

1.370~

14

11.67

31

25.83

1.500~

19

15.83

50

41.67

1.630~

29

24.17

79

65.83

1.760~

15

12.50

94

78.33

1.890~

12

10.00

106

88.33

2.020~

6

5.00

112

93.33

2.150~

4

3.33

116

96.67

2.280~2.410

4

3.33

120

100

合计

120

100.00

-

-

 

频数分布图:直方图(连续变量)



图2.1? 2005年某市120名9岁男孩肺活量频数分布


频数分布表和频数分布图的主要用途:
1.揭示频数分布的特征 : 
集中趋势(central tendency):指一组数据向某一个位置聚集或集中的倾向。 
离散趋势(dispersion tendency) :反映一组数据的分散性或变异度,即各个数据离开集中位置的程度。 
2.揭示频数分布的类型 
对称型分布:指集中位置在中间,左右两侧的频数大致对称的分布。 
不对称型分布/偏态分布: 
正偏态(positive skewness): 集中位置偏向数值小的一侧(左侧) ; 
负偏态(negative skewness): 集中位置偏向数值大的一侧(右侧) 。



图2.2 2004年我国麻疹患者的年龄分布 

图2.3 某市219名乳腺癌患者术后康复期生存质量评分的分布