第四节 方差分析需要满足的条件
一、方差分析应满足的条件
为了使方差分析达到理想的结果,实验数据必须满足一些先决条件,包括以下三点:
1.可加性每个观测值的加性方差分析包含了整体平均值,各种因素的主效应,各因素之间的相互作用,随机误差等诸多部分,这些部分必须叠加在一起,即每个观测值都可以被视为这些组件的积累。在讨论每个模型之前,我们给出一个适用于该模型的线性统计模型,这是加法的数学表达式。后来的理论分析基于线性统计模型,表明加性是方差分析的重要前提。例如,在某些情况下,数据服从对数正态分布(也就是说,数据在对数后以正态分布)后,这些部分以乘法的形式组合,此时需要先对原始数据数据的对数变换,一方面保证误差服从正态分布,另一方面可以
2.正态性即随机误差
必须独立于正态随机变量。这也是一个非常重要的条件,如果它不能得到满足,那么无法建立均方期望的推导,使用
统计来检验也失去了理论基础。如果只有实验材料相关,可能会影响独立性,可以用随机化的方法破坏其相关性,如果是正常性质不能满足,即错误服从其他分布,那么应该根据错误服从理论分布来取适当的数据转换,具体方法将在本节后面介绍。
3.方差齐性要求所有处理的随机误差方差应该相等,换句话说,不同的处理方式不能影响随机误差的方差。由于随机误差的期望必须为0,因此要求随机误差具有共同的分布。如果方差均匀性条件不满足,则可以通过数据转换的方法进行补偿。
条件1的数学表达式是方差分析的线性统计模型,而条件2,3的数学表达式为
。在实用中,条件1,2的满足主要靠理论分析,即如果我们没有理由怀疑数据的正态性,则认为它们是满足的;而条件3则可用一些统计方法进行检验。下面就对具体的检验方法进行介绍。
二、数据变换
前面提到的方差分析应该满足的三个条件:可加性,正态性,方差齐性。如果三个条件不满足方差分析,则可能导致错误的结论。第二和第三两个条件是相互关联的,因为一些非正态分布,某种函数关系的方差和期望,如数据的泊松分布,其期望和方差是相等的,数据的指数分布,期望方差等于方差等等。在这一点上,显然,如果平均值不等,方差将不相等,所以方差分析的条件在
不成立时不会得到满足。在这种情况下,数据应该在方差分析前进行变换,变换主要针对方差的均匀性,但其他两个条件可以改进。由于本课程的特点,我们不介绍数学转换的原理,只是介绍常用的转换方法和适用条件。
1.平方根变换
数据用于推迟泊松(Poisson)分布。它的方差等于平均值,所以不能满足不成立时方差齐性的要求。常见的例子是血液计数,给定区域的菌落数量,给定体积溶液中的细胞或细菌数量,每单位时间的自发排放数量,某些植物,动物和昆虫的数量面积等。其特点是每个人都出现在完全随机的地方,与邻居无关。符合这一特征的现象通常服从泊松分布。
方法:把数据换成其平方根,即用
代替
,然后再进行计算。若大多数据值为10左右,个别接近0,可用
代替
。
2.反正弦变换
用于以百分数形式给出的二项分布数据。即把原二项分布数据乘以100后作为
,因此数据一般在0~100之间。如果数据集中于30~70之间二项分布本就接近正态分布,此时也可不做变换。但若变化超出上述范围很大则应变换。
方法:令
。即先开平方,再取反正弦。也可直接查表得到
。
变化范围大实际是指
与
相差很大,此时有相当部分观察值大于70或小于30。此时分布是偏的,与正态分布差别很大。若
与
很接近,则数据多在30~70之间,与正态分布差别不大,就可以不变换。
3.对数变换
主要用于指数分布或对数正态分布数据。这些数据的特点是不能取负值,且其标准差
常与期望
接近。例如一些描述寿命的数据。
方法:令
,若大部分数据小于10,个别接近0,可采用
的变换。然后对
作方差分析。
4.Box-Cox幂变换
前三种转化方法要求我们对整体分布有一个理论上的理解,即了解整体分布的许多特点,以了解它们服从的分布。如果理论分布是无知的,而且实验不是正态分布,则常常使用功率变换方法进行变换。只要可以找到合适的功率值,数据通常会成功格式化。Box-Cox转化是一种常用的方法。
它的一般形式为:
. (6-42)
(6-43)
显然这一方法的关键是确定λ的值。理论证明,使以下对数似然函数L取最大值的λ就是使原始数据正态化的最佳值:
(6-44)
其中n为样本含量,v为自由度。如果xi是一维数据,则v = n - 1;如果是二维数据,则v = n - 2;依此类推。
为变换后数据的子样方差,而xi则为原始数据。显然使(6-44)式取最大值的λ不可能用解方程的方法解出,只能用一维搜索计算机程序找出。这是一个典型的优化问题,可使用任何搜索程序对它求解。一般情况下,λ取整数即可。若求出的λ=0,则使用(6-43)式进行变换;若λ不为0,则用(6-42)式进行变换。
应该指出,并非所有分布式数据都可以通过数据转换进行转换。例如,当数据处于双峰分布(即密度函数有两个峰值)时,找不到使其正常的转换方法。因此,如果服从正态分布,转化后的数据仍然需要进行统计检验。
同样重要的是要注意,在转换之后,对新变量进行后续分析和比较。如果要返回原始数据,由于方差,标准差不能转换回来,所以原始数据不能进行多重比较。

