1
社会统计学
1.7.3 5.3 相关与回归的比较
5.3 相关与回归的比较

相关与回归都是研究变量间的非确定性关系的,而且都是研究其中的线性关系的。但是二者研究的角度是有所不同的。 首先,回归是研究变量间的因果关系的。 从人类对社会的探索来看,就是要找出影响人类行为的因果关系。 而回归则是这种因果关系要建立的模型。 例如,回归方程式

式中的变量x 就是“因”,变量y 则是“果”。 因此利用回归方程,可以通过自变量x 的已知值去预测因变量y 的未知值。 比如子代和父代身高之间的关系,就有着明显的因果关系。 作为因果关系的标志是“因”必先于“果”,“果”相对于“因”有着时间上的滞后。 但相关关系则并不一定具有因果关系,例如同班同学A 与B 行为有着很高的相关关系,但两人间未必存在因果关系。 它们往往是伴随、共存的关系,当然也不排斥一方为主的情况,但作为相关关系,一般不再追究孰因孰果。 下列几种情况都可以作为相关研究的对象:

x→y(x 引起y 的变化)

y→x(y 引起x 的变化)

x↔y(x 和y 互为因果)

w→x,w→y(x 和y 间的关系,是由于共同因素w 所造成的)

那么是否可以说,如果明确了变量间的因果关系,就只需要回归分析了呢? 就是说,这时只需要回归系数b 就能反映两个变量之间的关系了呢? 答案是否定的。 实际上,回归直线式(5.27)中回归系数b,仅反映了增量Δx 和y 均值增量Δy≫之间的关系:

即x 增加一个单位Δx =1 时,y≫将增加b 个单位Δy=b。 b 说明了回归直线的陡度,b 值的大小与变量所取的单位是有关系的。 回归直线中y≫的变化,反映的是真实y 值平均值的变化,而真实数据与回归直线分散的情况在式(5.27)中是不反映的。 相关系数r 则正是表现了真实数据与回归直线靠拢的程度。

可见,通过回归直线,x 可以预测y 的平均值y,而相关系数r 反映了预测效果的好坏,或者说,相关系数反映了回归线拟合的好坏。 因此,在探索变量间回归直线的同时,还应该研究相关系数。

此外,相关系数是双向对称的,即x 对y 的相关系数和y 对x 的相关系数是一样的。但回归系数则不一样,当把x 作为自变量,y 作为因变量时,其回归方程为:

反之,如果把y 当作自变量,x 当作因变量,其回归方程为:

式(5.29)和式(5.30)中的系数a,b,a′,b′一般并不相等。 因此,回归直线是非对称的。