生物统计附试验设计

梅步俊 梁永厚 吴志红

目录

  • 1 绪论
    • 1.1 生物统计学发展史
    • 1.2 学习生物统计学的必要性
    • 1.3 常用术语和基本概念
    • 1.4 R软件的介绍
    • 1.5 进一步阅读的文献
    • 1.6 习题
  • 2 资料的描述性统计分析
    • 2.1 位置测度
    • 2.2 离散性测度
    • 2.3 R软件的应用
    • 2.4 习题
  • 3 随机变量与概率分布
    • 3.1 随机变量
    • 3.2 概率分布
    • 3.3 二维随机变量
    • 3.4 正态分布
    • 3.5 一些重要的概率分布
    • 3.6 R软件的应用
    • 3.7 习题
  • 4 参数估计方法
    • 4.1 估计量的评价准则
    • 4.2 点估计
    • 4.3 区间估计
    • 4.4 R软件的应用
    • 4.5 习题
  • 5 统计假设测验
    • 5.1 假设检验的基本问题
    • 5.2 统计检验的基本步骤
    • 5.3 抽样分布
    • 5.4 样本平均数与总体平均数差异显著性检验
    • 5.5 两个样本平均数的差异显著性检验
    • 5.6 百分数资料差异显著性检验
    • 5.7 总体参数的区间估计
    • 5.8 非参数检验
    • 5.9 R软件的应用
    • 5.10 习题
  • 6 方差分析
    • 6.1 单因素方差分析
    • 6.2 多重比较
    • 6.3 多因素方差分析
    • 6.4 方差分析需要满足的条件
    • 6.5 习题
  • 7 协方差分析
    • 7.1 协方差分析概述
    • 7.2 协方差分析的基本原理
    • 7.3 协方差分析的计算过程
    • 7.4 R软件的应用
    • 7.5 习题
  • 8 相关与回归分析
    • 8.1 变量之间的相互关系
    • 8.2 直线相关
    • 8.3 回归分析的性质
    • 8.4 一元正态线性回归统计模型
    • 8.5 多元线性回归统计模型
    • 8.6 自变量的选择与逐步回归
    • 8.7 曲线回归
    • 8.8 应用直线回归与相关的注意事项
    • 8.9 R软件的应用
    • 8.10 习题
  • 9 实验设计
    • 9.1 实验设计概述
    • 9.2 生物实验计划
    • 9.3 完全随机设计
    • 9.4 随机单位组设计
    • 9.5 拉丁方设计
    • 9.6 交叉设计
    • 9.7 正交设计
    • 9.8 R软件的应用
    • 9.9 习题
  • 10 附件
    • 10.1 复习题
单因素方差分析

 第六章 方差分析

学习要求: 

掌握方差分析基本思想;常见实验设计资料的方差分析;多组资料的方差齐性检验、变量变换方法;两因素析因设计方差分析、重复测量设计资料的方差分析。 


方差分析(analysis of variance,简称ANOVA)是数据分析中常用的统计模型,主要研究连续因变量(dependentvariable)和离散自变量(independentvariable)之间的关系。方差分析方法是由英国统计学家R.费歇尔(R Fisher)在1918年提出的。其基本思想是分解组与组之间的数据变异性,即样本,不同组的整体(接受不同的治疗)。由于同一组人来自同一群体(接受同样的治疗),群体的变异是由个体之间的随机差异引起的,但除个体之间的随机差异之外,不同群体之间也存在差异。群体变异与群体变异之间的比较,如群体变异显著大于群体,表明不同处理之间存在差异,或者总体平均值存在差异。

方差分析分为三类:

1.固定效应模式(fixed-effectsmodels)在方差分析模型中考虑的因素是固定的,换句话说,感兴趣的因素来自特定的范围,比如比较五种不同牧场的产奶量,感兴趣的因素是五种不同的牧场,因为变量是牛奶产量,命题定义了一个特定的范围,因此,模型的推断结果都将重点放在五个不同牧场的产奶量差异上,因此该条件下的因素称为固定效应。

2.随机效应模式(random-effectsmodels)与固定效应模型中特定因素不同,随机效应中考虑的因素来自所有可能人群中的一组样本,因子方差分析并未推断出对所选因子的关注,例如,如果某些水稻品种的研究对产量有影响,如果用于分析的物种是从大量物种中随机选取的,则可以使用随机效应模型来推断一些有关整个品种。因此,在随机效应模型下,研究人员不仅关注所选因素,而且关注这些因素推断背后的一般特征。

3.混合效应模式(mixed-effectsmodels)这种混合效应绝不会出现在单因素方差分析中,当两因素或多元方差分析同时具有固定效应和随机效应时,这种模型就是典型的混合模型。

方差分析的常用术语:

1.实验指标(experimentalindex)为了测量实验结果的质量或处理效果,实验中的特定字符或观察项目称为实验指标。由于实验目的不同,所选实验指标不一样。在畜禽检测中,常用的检测指标为:日增重、产仔数、产奶量、产蛋率、瘦肉率,一些生理生化指标(如血糖、身高、体重)等。

2.实验因素(experimentalfactor)影响实验指标的因素称为实验因素。如果研究如何增加猪的日增重、饲料配方、猪品种、饲养方法、环境温度和湿度等对日增重的影响,可以考虑作为实验因素。当实验中只有一个因素时,称为单因素实验,如果同时研究两个或两个以上因素对实验指标的影响,则称为双因素或多因素实验。大写字母A、B、C、...通常使用的实验因素。

3.因素水平(levelof factor)实验因子处于称为因子水平的特定状态或数量水平,称为水平。如果比较3个品种奶牛的产奶量,这3个品种是该实验因子的3个水平,并且研究了4种不同能量水平对育肥猪瘦肉率的影响,并且4种具体能量水平是饲料能量实验因子的4个水平。因子水平与表示要添加脚标1,2,...的因子的字母以指示。如A1、A2、…,B1、B2、…,等。

4.实验处理(treatment)在实验单元中预先设计的具体项目称为实验处理,称为处理。在单因素实验中,实验单位的具体项目是一定水平的实验因素。例如,在进料实验的比较中,特定项目的实验单元(某种类型的家畜和家禽)的实施是喂养某种饲料。所以单因素实验,一个实验因素的水平是一种治疗。在多因素实验中,实验单元中实施的具体项目是每个因素的级别组合。例如,3种饲料和3种猪日日重量对两因素影响的实验,整个实验有一个3x3= 9的水平组合,执行实验单元(实验猪)对具体项目有一定的影响和饲料的组合。因此,在多因素实验中,实验因素的横向组合是一个过程。

5.实验单位(experimentalunit)可以在不同实验中处理的独立实验载体称为实验单元。在家畜和家禽实验中,可以使用家禽、家畜、小白鼠、鱼,即动物,或几种家禽、若干家畜、几只老鼠、几条鱼,一组动物作为一个实验单位。实验单位通常是观测数据的单位。

6.重复(repetition)在实验中,对两个或多个实验单元进行一次处理,称为处理重复,并将要实施的实验单元的数量称为处理的重复次数。例如,用某种饲料饲喂4头猪意味着处理(饲料)重复4次。 

第一节 单因素方差分析 

      单因素方差分析(one-way ANOVA),用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。假设某单因素实验有k个处理,每个处理有n次重复,共有nk个观测值。这类实验资料的数据模式如表6.1所示。 

表6-1 k个处理每个处理有n个观测值的数据模式                                                                                                                                   

 

处理

 

 

观    测    值

 

 

合计

 

 

平均

 

 

A1

 

 

x11

 

 

x12

 

 

 

 

x1j

 

 

 

 

x1n

 

 

 

 

 

 

A2

 

 

x21

 

 

x22

 

 

 

 

x2j

 

 

 

 

x2n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ai

 

 

xi1

 

 

xi2

 

 

 

 

xij

 

 

 

 

xin

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ak

 

 

xk1

 

 

xk2

 

 

 

 

xkj

 

 

 

 

xkn

 

 

xk.

 

 

 

 

合计

 






 

 

 

 

表中表示第i个处理的第j个观测值(i=1,2,…,kj=1,2,…,n);表示第i个处理n个观测值的和;表示全部观测值的总和;表示第i个处理的平均数;表示全部观测值的总平均数;可以分解为

                     (6-1)

表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将再进行分解,令

                 (6-2)

                  (6-3)

                 (6-4)

其中μ表示全实验观测值总体的平均数,是第i个处理的效应(treatment effects)表示处理i对实验结果产生的影响。显然有

                      (6-5)

εij是实验误差,相互独立,且服从正态分布N(0,σ2)。

      (6-4)式叫做单因素实验的线性模型(linearmodel)亦称数学模型。在这个模型中表示为总平均数μ、处理效应αi、实验误差εij之和。由εij相互独立且服从正态分布N(0,σ2),可知各处理Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μi,σ2)。尽管各总体的均数可以不等或相等,σ2则必须是相等的。所以,单因素实验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。

若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符号来表示,则

              (6-6)

与(6-4)式比较可知,分别是μ、(μi-μ)=、(xij-)=的估计值。

(6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或),与误差(),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。

单因素方差分析模型,写成矩阵形式为

其中

可见,单因素方差分析模型是一个带约束条件的线性模型。

对此模型检验因素A的k个水平的均值是否有显著差异,即检验假设

这等价于检验

      如果被拒绝,则说明因素A的各个水平的效应之间有显著的差异。

可以使用方差和标准偏差来测量样本的变化程度。因为方差在统计分析中有许多优点,并且不需要是平方的,所以数据的方差通过均方(meansquares)的样本方差来测量。表6-1中所有观测值的总变化可以用总均方值来衡量。总方差分解为组内变异和组间变异,即将总均方分解为组内均方和组间均方。但是,这种分解是通过将分子的总平方除以所谓的总离均差平方和(totaldeviation from average square),简称为总平方和(total sum of squares),并将其平分为平方和处理的两部分来完成的。总分母称为总自由度(totaldegrees of freedom)的均方,分为两部分:自由度和自由度的剖分。

(一)总平方和的剖分在表6-1中,反映全部观测值总变异的总平方和是各观测值xij与总平均数的离均差平方和,记为SST。即

因为

        

其中

所以              

       (6-7)

(6-7)式中,为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SSt,即

(6-7)式中,为各处理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即

于是有

SST=SSt+SSe                   (6-8)

(6-7),(6-8)两式是单因素实验结果总平方和、处理间平方和、处理内平方和的关系式。这个关系式中三种平方和的简便计算公式如下:

                 (6-9)

                             

其中,C=x2··/kn称为矫正数。

(二)总自由度的剖分在计算总平方和时,资料中的各个观测值要受这一条件的约束,故总自由度等于资料中观测值的总个数减一,即kn-1。总自由度记为dfT,即dfT=kn-1

在计算处理间平方和时,各处理均数要受这一条件的约束,故处理间自由度为处理数减一,即k-1。处理间自由度记为dft,即dft=k-1。

在计算处理内平方和时,要受k个条件的约束,即(i=1,2,…,k)。故处理内自由度为资料中观测值的总个数减k,即kn-k。处理内自由度记为dfe,即dfe=kn-k=k(n-1)。

因为

所以

                   (6-10)

综合以上各式得:

                  (6-11)

各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为(MST或)、MSt(或)和MSe(或)。即

            (6-12)

总均方一般不等于处理间均方加处理内均方。

例6.1某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月实验以后,各组鱼的增重结果列于下表。 

表6-2 饲喂不同饲料的鱼的增重                 (单位:10g)                                                                                       

 

饲料

 

 

鱼的增重(xij)

 

 

合计

 

 

平均

 

 

A1

 

 

31.9

 

 

27.9

 

 

31.8

 

 

28.4

 

 

35.9

 

 

155.9

 

 

31.18

 

 

A2

 

 

24.8

 

 

25.7

 

 

26.8

 

 

27.9

 

 

26.2

 

 

131.4

 

 

26.28

 

 

A3

 

 

22.1

 

 

23.6

 

 

27.3

 

 

24.9

 

 

25.8

 

 

123.7

 

 

24.74

 

 

A4

 

 

27.0

 

 

30.8

 

 

29.0

 

 

24.5

 

 

28.5

 

 

139.8

 

 

27.96

 

 

合计

 





 

=550.8

 

解:这是一个单因素实验,处理数k=4,重复数n=5。各项平方和及自由度计算如下:

矫正数           

总平方和        

                        

处理间平方和     

处理内平方和     

总自由度         

处理间自由度     

处理内自由度     

用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。

因为方差分析中不涉及总均方的数值,所以不必计算之。

如前所述,方差分析的一个基本假定是要求各处理观测值总体的方差相等,即(i=1,2,…,k)表示第i个处理观测值总体的方差。如果所分析的资料满足这个方差同质性的要求,那么各处理的样本方差S21,S22,…,S2k都是σ2的无偏估计(unbiased estimate)量。 (i=1,2,…,k)是由实验资料中第i个处理的n个观测值算得的方差。

显然,各的合并方差(以各处理内的自由度n-1为权的加权平均数)也是σ2的无偏估计量,且估计的精确度更高。很容易推证处理内均方MSe就是各的合并。

其中SSi、dfi(i=1,2,…,k)分别表示由实验资料中第i个处理的n个观测值算得的平方和与自由度。这就是说,处理内均方MSe是误差方差σ2的无偏估计量。

    实验中各处理所属总体的本质差异体现在处理效应的差异上。我们把称为效应方差,它也反映了各处理观测值总体平均数的变异程度,记为

                     (6-13)

因为各未知,所以无法求得的确切值,只能通过实验结果中各处理均数的差异去估计。然而,并非的无偏估计量。这是因为处理观测值的均数间的差异实际上包含了两方面的内容:一是各处理本质上的差异即αi(或μi)间的差异,二是本身的抽样误差。统计学上已经证明,+σ2/n的无偏估计量。因而,我们前面所计算的处理间均方MSt实际上是n+σ2的无偏估计量。

 因为MSe是σ2的无偏估计量,MSt是n+σ2的无偏估计量,所以σ2为MSe的数学期望(mathematical expectation),n+σ2为MSt的数学期望。又因为它们是均方的期望值(expected value),故又称期望均方,简记为EMS(expected mean squares)。

    当处理效应的方差=0,亦即各处理观测值总体平均数(i=1,2,…,k)相等时,处理间均方MSt与处理内均方一样,也是误差方差σ2的估计值,方差分析就是通过MSt与MSe的比较来推断是否为零即是否相等的。

例6.2从小学入学新生中随机抽取20名学生作数学实验,将儿童均分为四组,分别用四种汉字识字教学法进行教学,一段时间后对他们进行统一测验,成绩如下:                   

 

教  法

 

 

A1

 

 

A2

 

 

A3

 

 

A4

 

 

 

 

 

 

yij

 

 

74

 

82

 

70

 

76

 

80

 

 

88

 

80

 

85

 

83

 

84

 

 

80

 

73

 

70

 

76

 

82

 

 

76

 

74

 

80

 

73

 

82

 

    希望通过实验数据推断:不同教学法的教学效果是否有显著差异?

     解:由上表中数据,将计算列表如下:                                       

 

教  法

 

 

A1    A2    A3    A4

 

 

Yij

 

 

    74     88    80    76

 

 

82    80    73     74

 

 

    70    85     70    80

 

 

    76    83     76    78

 

 

    80    84     82    82

 

 

Yi·

 

 

382   420   381    390

 

 

  

 

 

Yi2·

 

 

145924 176400 145161 152100

 

 

 

, 

SST=124179-123716.45=462.55

SSt=×619585-123716.45=200.55  

SSe=SST-SSt=262

从而
       

取检验水平=0.05,查F(3.16)分布表得=3.24

,故拒绝H0:

认为在=0.05下,不同教学法对识字效果影响显著。