第二节 直线相关
一、相关系数和决定系数
(一)相关系数
对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y相关密切程度及其性质的统计数-相关系数。一般以
表示总体相关系数,以r表示样本相关系数。
设有一X、Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到
和
上,则各个点的位置不变,而所取坐标变为(
,
)。并且,在象限Ⅰ,(
)>0,(
)>0;在象限Ⅱ,(
)<0,(
)>0;在象限Ⅲ,(
)<0,(
)<0;在象限Ⅳ,(
)>0,(
)<0。因而,凡落在象限Ⅰ、Ⅲ的点,(
)(
)皆为正值;凡落在象限Ⅱ、Ⅳ的点,(
)(
)皆为负值。当(X,Y)总体呈正相关时,落在象限Ⅰ、Ⅲ的点一定比落在象限Ⅱ、Ⅳ的多,故
一定为正;同时落在象限Ⅰ、Ⅲ的点所占的比率愈大,此正值也愈大。当(X,Y)总体呈负相关时,则落在象限Ⅱ、Ⅳ的点一定比落在象限Ⅰ、Ⅲ的为多,故
一定为负;且落在象限Ⅱ、Ⅳ的点所占的比率愈大,此负值的绝对值也愈大。如果(X,Y)总体没有相关,则落在象限Ⅰ、Ⅱ、Ⅲ、Ⅳ的点是均匀分散的,因而正负相消,
=0。
以上说明,
的值可用来度量两个变数直线相关的相关程度和性质。但是,X和Y的变异程度、所取单位及N的大小都会影响
,为便于普遍应用,应消去这些因素的影响。消去的方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N除之。因而,可定义双变数总体的相关系数
为:
![]()
![]()
(8-1)
(8-1)的
已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。(8-1)也说明,相关系数是两个变数标准化离差的乘积之和的平均数。
当计算样本的相关系数r时,
、
和
便分别以
、
和
取代,因而
(8-2)
上述结果是直观地建立起来的。实际上,由回归分析亦可方便地得出同样结果。前已述及,y的平方和
在回归分析时分成了两个部分:一部分是离回归平方和Q
,另一部分是回归平方和U
=(SP)2/SSx,后者是由X的不同而引起的。显然,若坐标点愈靠近回归线,则U对SSy的比率愈大,直线相关就愈密切。因此,又可有定义:

上式说明,当散点图上的点完全落在回归直线上时,Q=0,U=SSy,故
;当y的变异和x完全无关时,U=0,Q=SSy,故
。所以r的取值区间是[-1,1]。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。另一方面,r的显著与否还和自由度
有关,
越大,受抽样误差的影响越小,r达到显著水平
的值就较小。r的正或负则表示相关的性质:正的r值表示正相关,即y随x的增大而增大;负的r值表示负相关,即y随x的增大而减少。由于r和b算式中的分母部分总取正值,而分子部分都是SP,所以相关系数的正或负,必然和回归系数一致。
相关系数的性质
(1)相关系数的取值范围在-1和+1之间,即:–1≤r≤ 1。
(2)计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。
(3)相关系数r的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。
(4)判断两变量线性相关密切程度的具体标准为:
,称为微弱相关;
,称为低度相关;
,称为显著相关;
称为高度相关。
(二)决定系数
决定系数(determinationcoefficient)定义为由x不同而引起的y的平方和
占y总平方和SSy=
的比率;也可定义为由y不同而引起的x的平方和
占x总平方和SSx=
的比率,其值为:
![]()
(8-3)
所以决定系数即相关系数r的平方值。
决定系数和相关系数的区别在于:① 除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x的不同而引起的y变异(或由y的不同而引起的x变异)平方和仅占y总变异(或x总变异)平方和的r2=0.25,即25%,而不是50%。② r是可正可负的,而r2则一律取正值,其取值区间为[0,1]。因此,在相关分析中将两者结合起来是可取的,即由r的正或负表示相关的性质,由r2的大小表示相关的程度。
(三)相关图
相关图又称散点图。它是以直角坐标系的横轴代表标量X,纵轴代表标量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。
二、相关系数的假设检验
目的:相关系数检验的目的是判断两变量的总体是否有相关关系。检验样本相关系数r是否总体相关系数为0的总体,如概率p<0.05,认为两变量存在相关关系。
方法:有t检验、查表法和F检验。
(1)t检验法:统计量计算为
(8-4)
(2)查表法:是直接查相关系数界值表得到相应的概率p。统计量r绝对值越大,p越小。
(3)F检验的计算公式为
F=
,
=1,
=n-2 (8-5)
统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。所以可以直接采用查表法对相关系数r进行显著性检验。具体作法是:先根据自由度n-2查临界r值(附表8),得
,
。若|r|<
,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若
≤|r|<
,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥
,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。
例8.1 计算10只绵羊的胸围(cm)和体重(kg)(表8-1)的相关系数。
表8-1 10只绵羊胸围和体重资料
编号 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
胸围(x) |
68 |
70 |
70 |
71 |
71 |
71 |
73 |
74 |
76 |
76 |
体重(y) |
50 |
60 |
68 |
65 |
69 |
72 |
71 |
73 |
75 |
77 |
根据表8-1所列数据先计算出:
![]()
![]()
![]()
代入(8-2)式得:

即绵羊胸围与体重的相关系数为0.8475。
对于例8.1,因为df=n-2=10-2=8,查附表8得:
=0.632,
=0.765,而r=0.8475>
,P<0.01,表明绵羊胸围与体重的相关系数极显著。

