课程门户-章节详情

梅步俊梁永厚吴志红

1 绪论
- 1.1 生物统计学发展史
- 1.2 学习生物统计学的必要性
- 1.3 常用术语和基本概念
- 1.4 R软件的介绍
- 1.5 进一步阅读的文献
- 1.6 习题
2 资料的描述性统计分析
- 2.1 位置测度
- 2.2 离散性测度
- 2.3 R软件的应用
- 2.4 习题
3 随机变量与概率分布
- 3.1 随机变量
- 3.2 概率分布
- 3.3 二维随机变量
- 3.4 正态分布
- 3.5 一些重要的概率分布
- 3.6 R软件的应用
- 3.7 习题
4 参数估计方法
- 4.1 估计量的评价准则
- 4.2 点估计
- 4.3 区间估计
- 4.4 R软件的应用
- 4.5 习题
5 统计假设测验
- 5.1 假设检验的基本问题
- 5.2 统计检验的基本步骤
- 5.3 抽样分布
- 5.4 样本平均数与总体平均数差异显著性检验
- 5.5 两个样本平均数的差异显著性检验
- 5.6 百分数资料差异显著性检验
- 5.7 总体参数的区间估计
- 5.8 非参数检验
- 5.9 R软件的应用
- 5.10 习题
6 方差分析
- 6.1 单因素方差分析
- 6.2 多重比较
- 6.3 多因素方差分析
- 6.4 方差分析需要满足的条件
- 6.5 习题
7 协方差分析
- 7.1 协方差分析概述
- 7.2 协方差分析的基本原理
- 7.3 协方差分析的计算过程
- 7.4 R软件的应用
- 7.5 习题
8 相关与回归分析
- 8.1 变量之间的相互关系
- 8.2 直线相关
- 8.3 回归分析的性质
- 8.4 一元正态线性回归统计模型
- 8.5 多元线性回归统计模型
- 8.6 自变量的选择与逐步回归
- 8.7 曲线回归
- 8.8 应用直线回归与相关的注意事项
- 8.9 R软件的应用
- 8.10 习题
9 实验设计
- 9.1 实验设计概述
- 9.2 生物实验计划
- 9.3 完全随机设计
- 9.4 随机单位组设计
- 9.5 拉丁方设计
- 9.6 交叉设计
- 9.7 正交设计
- 9.8 R软件的应用
- 9.9 习题
10 附件
- 10.1 复习题

方差分析需要满足的条件

第四节方差分析需要满足的条件

一、方差分析应满足的条件

为了使方差分析达到理想的结果，实验数据必须满足一些先决条件，包括以下三点：

1.可加性每个观测值的加性方差分析包含了整体平均值，各种因素的主效应，各因素之间的相互作用，随机误差等诸多部分，这些部分必须叠加在一起，即每个观测值都可以被视为这些组件的积累。在讨论每个模型之前，我们给出一个适用于该模型的线性统计模型，这是加法的数学表达式。后来的理论分析基于线性统计模型，表明加性是方差分析的重要前提。例如，在某些情况下，数据服从对数正态分布（也就是说，数据在对数后以正态分布）后，这些部分以乘法的形式组合，此时需要先对原始数据数据的对数变换，一方面保证误差服从正态分布，另一方面可以

2.正态性即随机误差必须独立于正态随机变量。这也是一个非常重要的条件，如果它不能得到满足，那么无法建立均方期望的推导，使用统计来检验也失去了理论基础。如果只有实验材料相关，可能会影响独立性，可以用随机化的方法破坏其相关性，如果是正常性质不能满足，即错误服从其他分布，那么应该根据错误服从理论分布来取适当的数据转换，具体方法将在本节后面介绍。

3.方差齐性要求所有处理的随机误差方差应该相等，换句话说，不同的处理方式不能影响随机误差的方差。由于随机误差的期望必须为0，因此要求随机误差具有共同的分布。如果方差均匀性条件不满足，则可以通过数据转换的方法进行补偿。

条件1的数学表达式是方差分析的线性统计模型，而条件2，3的数学表达式为。在实用中，条件1，2的满足主要靠理论分析，即如果我们没有理由怀疑数据的正态性，则认为它们是满足的；而条件3则可用一些统计方法进行检验。下面就对具体的检验方法进行介绍。

二、数据变换

前面提到的方差分析应该满足的三个条件：可加性，正态性，方差齐性。如果三个条件不满足方差分析，则可能导致错误的结论。第二和第三两个条件是相互关联的，因为一些非正态分布，某种函数关系的方差和期望，如数据的泊松分布，其期望和方差是相等的，数据的指数分布，期望方差等于方差等等。在这一点上，显然，如果平均值不等，方差将不相等，所以方差分析的条件在不成立时不会得到满足。在这种情况下，数据应该在方差分析前进行变换，变换主要针对方差的均匀性，但其他两个条件可以改进。由于本课程的特点，我们不介绍数学转换的原理，只是介绍常用的转换方法和适用条件。

1.平方根变换

数据用于推迟泊松（Poisson）分布。它的方差等于平均值，所以不能满足不成立时方差齐性的要求。常见的例子是血液计数，给定区域的菌落数量，给定体积溶液中的细胞或细菌数量，每单位时间的自发排放数量，某些植物，动物和昆虫的数量面积等。其特点是每个人都出现在完全随机的地方，与邻居无关。符合这一特征的现象通常服从泊松分布。

方法：把数据换成其平方根，即用代替，然后再进行计算。若大多数据值为10左右，个别接近0，可用代替。

2.反正弦变换

用于以百分数形式给出的二项分布数据。即把原二项分布数据乘以100后作为，因此数据一般在0～100之间。如果数据集中于30～70之间二项分布本就接近正态分布，此时也可不做变换。但若变化超出上述范围很大则应变换。

方法：令。即先开平方，再取反正弦。也可直接查表得到。

变化范围大实际是指与相差很大,此时有相当部分观察值大于70或小于30。此时分布是偏的,与正态分布差别很大。若与很接近,则数据多在30～70之间,与正态分布差别不大,就可以不变换。

3.对数变换

主要用于指数分布或对数正态分布数据。这些数据的特点是不能取负值，且其标准差常与期望接近。例如一些描述寿命的数据。

方法：令,若大部分数据小于10，个别接近0，可采用的变换。然后对作方差分析。

4.Box-Cox幂变换

前三种转化方法要求我们对整体分布有一个理论上的理解，即了解整体分布的许多特点，以了解它们服从的分布。如果理论分布是无知的，而且实验不是正态分布，则常常使用功率变换方法进行变换。只要可以找到合适的功率值，数据通常会成功格式化。Box-Cox转化是一种常用的方法。

它的一般形式为：

. (6-42)

(6-43)

显然这一方法的关键是确定λ的值。理论证明，使以下对数似然函数L取最大值的λ就是使原始数据正态化的最佳值：

(6-44)

其中n为样本含量，v为自由度。如果xi是一维数据，则v = n - 1；如果是二维数据，则v = n - 2；依此类推。为变换后数据的子样方差，而xi则为原始数据。显然使(6-44)式取最大值的λ不可能用解方程的方法解出，只能用一维搜索计算机程序找出。这是一个典型的优化问题，可使用任何搜索程序对它求解。一般情况下，λ取整数即可。若求出的λ=0，则使用(6-43)式进行变换；若λ不为0，则用（6-42）式进行变换。

应该指出，并非所有分布式数据都可以通过数据转换进行转换。例如，当数据处于双峰分布（即密度函数有两个峰值）时，找不到使其正常的转换方法。因此，如果服从正态分布，转化后的数据仍然需要进行统计检验。

同样重要的是要注意，在转换之后，对新变量进行后续分析和比较。如果要返回原始数据，由于方差，标准差不能转换回来，所以原始数据不能进行多重比较。

图片预览