生物统计附试验设计

梅步俊 梁永厚 吴志红

目录

  • 1 绪论
    • 1.1 生物统计学发展史
    • 1.2 学习生物统计学的必要性
    • 1.3 常用术语和基本概念
    • 1.4 R软件的介绍
    • 1.5 进一步阅读的文献
    • 1.6 习题
  • 2 资料的描述性统计分析
    • 2.1 位置测度
    • 2.2 离散性测度
    • 2.3 R软件的应用
    • 2.4 习题
  • 3 随机变量与概率分布
    • 3.1 随机变量
    • 3.2 概率分布
    • 3.3 二维随机变量
    • 3.4 正态分布
    • 3.5 一些重要的概率分布
    • 3.6 R软件的应用
    • 3.7 习题
  • 4 参数估计方法
    • 4.1 估计量的评价准则
    • 4.2 点估计
    • 4.3 区间估计
    • 4.4 R软件的应用
    • 4.5 习题
  • 5 统计假设测验
    • 5.1 假设检验的基本问题
    • 5.2 统计检验的基本步骤
    • 5.3 抽样分布
    • 5.4 样本平均数与总体平均数差异显著性检验
    • 5.5 两个样本平均数的差异显著性检验
    • 5.6 百分数资料差异显著性检验
    • 5.7 总体参数的区间估计
    • 5.8 非参数检验
    • 5.9 R软件的应用
    • 5.10 习题
  • 6 方差分析
    • 6.1 单因素方差分析
    • 6.2 多重比较
    • 6.3 多因素方差分析
    • 6.4 方差分析需要满足的条件
    • 6.5 习题
  • 7 协方差分析
    • 7.1 协方差分析概述
    • 7.2 协方差分析的基本原理
    • 7.3 协方差分析的计算过程
    • 7.4 R软件的应用
    • 7.5 习题
  • 8 相关与回归分析
    • 8.1 变量之间的相互关系
    • 8.2 直线相关
    • 8.3 回归分析的性质
    • 8.4 一元正态线性回归统计模型
    • 8.5 多元线性回归统计模型
    • 8.6 自变量的选择与逐步回归
    • 8.7 曲线回归
    • 8.8 应用直线回归与相关的注意事项
    • 8.9 R软件的应用
    • 8.10 习题
  • 9 实验设计
    • 9.1 实验设计概述
    • 9.2 生物实验计划
    • 9.3 完全随机设计
    • 9.4 随机单位组设计
    • 9.5 拉丁方设计
    • 9.6 交叉设计
    • 9.7 正交设计
    • 9.8 R软件的应用
    • 9.9 习题
  • 10 附件
    • 10.1 复习题
直线相关

第二节  直线相关 

一、相关系数和决定系数

(一)相关系数

对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y相关密切程度及其性质的统计数-相关系数。一般以表示总体相关系数,以r表示样本相关系数。

设有一X、Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到上,则各个点的位置不变,而所取坐标变为()。并且,在象限Ⅰ,()>0,()>0;在象限Ⅱ,()<0,()>0;在象限Ⅲ,()<0,()<0;在象限Ⅳ,()>0,()<0。因而,凡落在象限Ⅰ、Ⅲ的点,()()皆为正值;凡落在象限Ⅱ、Ⅳ的点,()()皆为负值。当(X,Y)总体呈正相关时,落在象限Ⅰ、Ⅲ的点一定比落在象限Ⅱ、Ⅳ的多,故一定为正;同时落在象限Ⅰ、Ⅲ的点所占的比率愈大,此正值也愈大。当(X,Y)总体呈负相关时,则落在象限Ⅱ、Ⅳ的点一定比落在象限Ⅰ、Ⅲ的为多,故一定为负;且落在象限Ⅱ、Ⅳ的点所占的比率愈大,此负值的绝对值也愈大。如果(X,Y)总体没有相关,则落在象限Ⅰ、Ⅱ、Ⅲ、Ⅳ的点是均匀分散的,因而正负相消,=0。

以上说明,的值可用来度量两个变数直线相关的相关程度和性质。但是,X和Y的变异程度、所取单位及N的大小都会影响,为便于普遍应用,应消去这些因素的影响。消去的方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N除之。因而,可定义双变数总体的相关系数为:

                                  (8-1)

    (8-1)的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。(8-1)也说明,相关系数是两个变数标准化离差的乘积之和的平均数。

当计算样本的相关系数r时,便分别以取代,因而

                         (8-2)

上述结果是直观地建立起来的。实际上,由回归分析亦可方便地得出同样结果。前已述及,y的平方和在回归分析时分成了两个部分:一部分是离回归平方和Q,另一部分是回归平方和U=(SP)2/SSx,后者是由X的不同而引起的。显然,若坐标点愈靠近回归线,则U对SSy的比率愈大,直线相关就愈密切。因此,又可有定义:

上式说明,当散点图上的点完全落在回归直线上时,Q=0,U=SSy,故;当y的变异和x完全无关时,U=0,Q=SSy,故。所以r的取值区间是[-1,1]。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。另一方面,r的显著与否还和自由度有关,越大,受抽样误差的影响越小,r达到显著水平的值就较小。r的正或负则表示相关的性质:正的r值表示正相关,即y随x的增大而增大;负的r值表示负相关,即y随x的增大而减少。由于r和b算式中的分母部分总取正值,而分子部分都是SP,所以相关系数的正或负,必然和回归系数一致。

相关系数的性质

(1)相关系数的取值范围在-1和+1之间,即:–1≤r≤ 1。

(2)计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。

(3)相关系数r的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。

(4)判断两变量线性相关密切程度的具体标准为:,称为微弱相关;,称为低度相关;,称为显著相关;称为高度相关。

(二)决定系数 

决定系数(determinationcoefficient)定义为由x不同而引起的y的平方和占y总平方和SSy=的比率;也可定义为由y不同而引起的x的平方和占x总平方和SSx=的比率,其值为:

                                         (8-3)

所以决定系数即相关系数r的平方值。

决定系数和相关系数的区别在于:① 除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x的不同而引起的y变异(或由y的不同而引起的x变异)平方和仅占y总变异(或x总变异)平方和的r2=0.25,即25%,而不是50%。② r是可正可负的,而r2则一律取正值,其取值区间为[0,1]。因此,在相关分析中将两者结合起来是可取的,即由r的正或负表示相关的性质,由r2的大小表示相关的程度。

(三)相关图

相关图又称散点图。它是以直角坐标系的横轴代表标量X,纵轴代表标量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。

二、相关系数的假设检验

目的:相关系数检验的目的是判断两变量的总体是否有相关关系。检验样本相关系数r是否总体相关系数为0的总体,如概率p<0.05,认为两变量存在相关关系。

方法:有t检验、查表法和F检验。

(1)t检验法:统计量计算为

                    (8-4)

(2)查表法:是直接查相关系数界值表得到相应的概率p。统计量r绝对值越大,p越小。

(3)F检验的计算公式为

F==1,=n-2            (8-5)

统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。所以可以直接采用查表法对相关系数r进行显著性检验。具体作法是:先根据自由度n-2查临界r值(附表8),得。若|r|<,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若≤|r|<,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。

例8.1 计算10只绵羊的胸围(cm)和体重(kg)(表8-1)的相关系数。 

表8-1  10只绵羊胸围和体重资料                                                                 

 

编号

 

 

1

 

 

2

 

 

3

 

 

4

 

 

5

 

 

6

 

 

7

 

 

8

 

 

9

 

 

10

 

 

胸围(x)

 

 

68

 

 

70

 

 

70

 

 

71

 

 

71

 

 

71

 

 

73

 

 

74

 

 

76

 

 

76

 

 

体重(y)

 

 

50

 

 

60

 

 

68

 

 

65

 

 

69

 

 

72

 

 

71

 

 

73

 

 

75

 

 

77

 

 根据表8-1所列数据先计算出:

代入(8-2)式得:

即绵羊胸围与体重的相关系数为0.8475。

对于例8.1,因为df=n-2=10-2=8,查附表8得:=0.632,=0.765,而r=0.8475>,P<0.01,表明绵羊胸围与体重的相关系数极显著。