生物统计附试验设计

梅步俊 梁永厚 吴志红

目录

  • 1 绪论
    • 1.1 生物统计学发展史
    • 1.2 学习生物统计学的必要性
    • 1.3 常用术语和基本概念
    • 1.4 R软件的介绍
    • 1.5 进一步阅读的文献
    • 1.6 习题
  • 2 资料的描述性统计分析
    • 2.1 位置测度
    • 2.2 离散性测度
    • 2.3 R软件的应用
    • 2.4 习题
  • 3 随机变量与概率分布
    • 3.1 随机变量
    • 3.2 概率分布
    • 3.3 二维随机变量
    • 3.4 正态分布
    • 3.5 一些重要的概率分布
    • 3.6 R软件的应用
    • 3.7 习题
  • 4 参数估计方法
    • 4.1 估计量的评价准则
    • 4.2 点估计
    • 4.3 区间估计
    • 4.4 R软件的应用
    • 4.5 习题
  • 5 统计假设测验
    • 5.1 假设检验的基本问题
    • 5.2 统计检验的基本步骤
    • 5.3 抽样分布
    • 5.4 样本平均数与总体平均数差异显著性检验
    • 5.5 两个样本平均数的差异显著性检验
    • 5.6 百分数资料差异显著性检验
    • 5.7 总体参数的区间估计
    • 5.8 非参数检验
    • 5.9 R软件的应用
    • 5.10 习题
  • 6 方差分析
    • 6.1 单因素方差分析
    • 6.2 多重比较
    • 6.3 多因素方差分析
    • 6.4 方差分析需要满足的条件
    • 6.5 习题
  • 7 协方差分析
    • 7.1 协方差分析概述
    • 7.2 协方差分析的基本原理
    • 7.3 协方差分析的计算过程
    • 7.4 R软件的应用
    • 7.5 习题
  • 8 相关与回归分析
    • 8.1 变量之间的相互关系
    • 8.2 直线相关
    • 8.3 回归分析的性质
    • 8.4 一元正态线性回归统计模型
    • 8.5 多元线性回归统计模型
    • 8.6 自变量的选择与逐步回归
    • 8.7 曲线回归
    • 8.8 应用直线回归与相关的注意事项
    • 8.9 R软件的应用
    • 8.10 习题
  • 9 实验设计
    • 9.1 实验设计概述
    • 9.2 生物实验计划
    • 9.3 完全随机设计
    • 9.4 随机单位组设计
    • 9.5 拉丁方设计
    • 9.6 交叉设计
    • 9.7 正交设计
    • 9.8 R软件的应用
    • 9.9 习题
  • 10 附件
    • 10.1 复习题
方差分析需要满足的条件

第四节 方差分析需要满足的条件 

一、方差分析应满足的条件

为了使方差分析达到理想的结果,实验数据必须满足一些先决条件,包括以下三点:

1.可加性每个观测值的加性方差分析包含了整体平均值,各种因素的主效应,各因素之间的相互作用,随机误差等诸多部分,这些部分必须叠加在一起,即每个观测值都可以被视为这些组件的积累。在讨论每个模型之前,我们给出一个适用于该模型的线性统计模型,这是加法的数学表达式。后来的理论分析基于线性统计模型,表明加性是方差分析的重要前提。例如,在某些情况下,数据服从对数正态分布(也就是说,数据在对数后以正态分布)后,这些部分以乘法的形式组合,此时需要先对原始数据数据的对数变换,一方面保证误差服从正态分布,另一方面可以

2.正态性即随机误差必须独立于正态随机变量。这也是一个非常重要的条件,如果它不能得到满足,那么无法建立均方期望的推导,使用统计来检验也失去了理论基础。如果只有实验材料相关,可能会影响独立性,可以用随机化的方法破坏其相关性,如果是正常性质不能满足,即错误服从其他分布,那么应该根据错误服从理论分布来取适当的数据转换,具体方法将在本节后面介绍。

3.方差齐性要求所有处理的随机误差方差应该相等,换句话说,不同的处理方式不能影响随机误差的方差。由于随机误差的期望必须为0,因此要求随机误差具有共同的分布。如果方差均匀性条件不满足,则可以通过数据转换的方法进行补偿。

条件1的数学表达式是方差分析的线性统计模型,而条件2,3的数学表达式为。在实用中,条件1,2的满足主要靠理论分析,即如果我们没有理由怀疑数据的正态性,则认为它们是满足的;而条件3则可用一些统计方法进行检验。下面就对具体的检验方法进行介绍。

二、数据变换

前面提到的方差分析应该满足的三个条件:可加性,正态性,方差齐性。如果三个条件不满足方差分析,则可能导致错误的结论。第二和第三两个条件是相互关联的,因为一些非正态分布,某种函数关系的方差和期望,如数据的泊松分布,其期望和方差是相等的,数据的指数分布,期望方差等于方差等等。在这一点上,显然,如果平均值不等,方差将不相等,所以方差分析的条件在不成立时不会得到满足。在这种情况下,数据应该在方差分析前进行变换,变换主要针对方差的均匀性,但其他两个条件可以改进。由于本课程的特点,我们不介绍数学转换的原理,只是介绍常用的转换方法和适用条件。

1.平方根变换

数据用于推迟泊松(Poisson)分布。它的方差等于平均值,所以不能满足不成立时方差齐性的要求。常见的例子是血液计数,给定区域的菌落数量,给定体积溶液中的细胞或细菌数量,每单位时间的自发排放数量,某些植物,动物和昆虫的数量面积等。其特点是每个人都出现在完全随机的地方,与邻居无关。符合这一特征的现象通常服从泊松分布。

方法:把数据换成其平方根,即用代替,然后再进行计算。若大多数据值为10左右,个别接近0,可用代替

2.反正弦变换

用于以百分数形式给出的二项分布数据。即把原二项分布数据乘以100后作为,因此数据一般在0~100之间。如果数据集中于30~70之间二项分布本就接近正态分布,此时也可不做变换。但若变化超出上述范围很大则应变换。

方法:令。即先开平方,再取反正弦。也可直接查表得到

变化范围大实际是指相差很大,此时有相当部分观察值大于70或小于30。此时分布是偏的,与正态分布差别很大。若很接近,则数据多在30~70之间,与正态分布差别不大,就可以不变换。

3.对数变换

主要用于指数分布或对数正态分布数据。这些数据的特点是不能取负值,且其标准差常与期望接近。例如一些描述寿命的数据。

方法:令,若大部分数据小于10,个别接近0,可采用的变换。然后对作方差分析。

4.Box-Cox幂变换

前三种转化方法要求我们对整体分布有一个理论上的理解,即了解整体分布的许多特点,以了解它们服从的分布。如果理论分布是无知的,而且实验不是正态分布,则常常使用功率变换方法进行变换。只要可以找到合适的功率值,数据通常会成功格式化。Box-Cox转化是一种常用的方法。

它的一般形式为:

          .             (6-42)

                        (6-43)

显然这一方法的关键是确定λ的值。理论证明,使以下对数似然函数L取最大值的λ就是使原始数据正态化的最佳值:

                     (6-44)

其中n为样本含量,v为自由度。如果xi是一维数据,则v = n - 1;如果是二维数据,则v = n - 2;依此类推。为变换后数据的子样方差,而xi则为原始数据。显然使(6-44)式取最大值的λ不可能用解方程的方法解出,只能用一维搜索计算机程序找出。这是一个典型的优化问题,可使用任何搜索程序对它求解。一般情况下,λ取整数即可。若求出的λ=0,则使用(6-43)式进行变换;若λ不为0,则用(6-42)式进行变换。

应该指出,并非所有分布式数据都可以通过数据转换进行转换。例如,当数据处于双峰分布(即密度函数有两个峰值)时,找不到使其正常的转换方法。因此,如果服从正态分布,转化后的数据仍然需要进行统计检验。

同样重要的是要注意,在转换之后,对新变量进行后续分析和比较。如果要返回原始数据,由于方差,标准差不能转换回来,所以原始数据不能进行多重比较。