前面我们了解了对待单一变量时收集数据、整理数据及分析数据的方法,有时我们不仅需要对单一变量的某种特征进行描述,而且还需要知道某变量与其他变量之间的关系。多数科学都会遇到寻找两个变量之间关系的问题,在这种工作中统计学扮演着重要的角色。比如圆的面积(或周长)和半径存在直接关系,一旦我们确定好半径的大小,那么圆的面积(或周长)就能唯一确定(反之亦然),这种确定性的关系属于因果关系范畴,即知道了“因”就能得到“果”。但是经济生活中,我们经常会遇到一些关系并不能通过因果关系来确定,比如经常吸烟的人群是否会导致肺癌?在医院的肺癌病房里,我们会遇到经常吸烟的患者,也会遇到不经常吸烟的患者,因此,从经常吸烟的“因”并不能得到罹患肺癌的“果”,但是对罹患肺癌的人群统计结果表明吸烟人群罹患肺癌的比例要高于不吸烟的人群。吸烟不一定会导致肺癌,肺癌患者也未必都是吸烟人群,但是经常吸烟的人群罹患肺癌的比例的确高于不经常吸烟的人群,此时,我们称这种关系为相关关系,即吸烟并不是导致肺癌的唯一确定性因素,是罹患肺癌的多种不确定因素中的一种(与不吸烟的人群相比,罹患肺癌的风险要高)。我们生活中经常会遇到相关关系的问题,比如政府增加用于教育的投入是否会带来居民可支配收入的增加?企业营销费用的增加能否提高利润?城市商品房的销售价格是否和地段、学区、周边配套等因素有关系?变量A能够影响变量B(反之亦可),这种影响是非确定性,此时称两变量间存在相关关系。现实生活中有很多关系都属于相关关系,在分析两个变量之间的相关关系时通常关心如下问题:
1.从实际背景来看,两变量之间是否存在关系?
2.如果存在,有多大关系?
举个例子,张三同学观察到如下情况。19点的时候,你的闹钟准时响了,与此同时,他的闹钟也响了,而且这种情况持续了365天,这能说明你的闹钟和张三的闹钟之间存在相关关系吗?显然不能!你们两人的闹钟同时响不是因为你们的闹钟之间存在的某种关系,而是因为大家共用相同的时间系统。再看一个例子,统计数据表明拥有更多电子产品(电视、电脑、手机、平板、游戏机等)的张三同学学习成绩比拥有较少电子产品的你更好,是否能说明学习成绩和电子产品之间存在正相关关系呢(即家庭拥有电子产品越多,孩子学习成绩越好)?从实际背景来看显然是荒谬的,否则大家只要多买电子产品,孩子的学习就越好了。较为合适的解释可能是拥有更多电子产品的家庭条件较好,能为孩子付出更多的金钱用于教育(或许是请家教、上辅导班等),从而提高了孩子的学习成绩。从以上两个例子来看,脱离实际背景的相关关系是极度不靠谱的,而且很有可能会产生误导,所以,在实际应用中,应该在充分考虑实际背景和意义的基础上得出是否存在相关关系的结论。
需要强调的是,绝对不要首先从数据出发考虑相关性。比如,你考虑以下你的年龄的身高(限定在前16年吧),你会发现随着年龄的增加,你的身高也在增加,难道能说明身高和年龄正相关吗?
相关性
有一项医学研究发现,比起中等身高的女性,个子矮的女性较常有心脏病发作的情形,而个子高的女性,心脏病发作的状况最少。某个保险公司宣称,以登记在案的每.万辆汽车交通事故的死亡人数来比较的话,较重的汽车死亡率要比较轻的汽车低。这两项及其他许多项的统计研究,都探讨过两个变量之间的相关关系。
问题1:变量间有关系吗
统计学上用来分析两个变量相关关系的方法叫做回归分析。
问题2:关系强弱
我们可以计算一个系数来衡量两个变量间的关系强弱。对于两个数值变量,计算出来的系数简称其为相关系数。相关系数度量了两个数值变量间的直线相关方向和关系强度。相关系数有正负之分。如果相关系数是正的,说明两个变量之间是正相关关系,一个变量增加另一个也随之增加,一个变量减小另一个同样减小;如果相关系数是负的,说明两个变量是负相关,一个变量增加另一个变量会减小。
因果性
问题3:这个关系是不是因果关系?
这是最难回答的一个问题。但它却常常也是最重要的一个问题,尤其是处理数据观测型时,这是统计学最没有办法解决的问题。对于观察数据,问题常常得不到回答,此因我们不知道观测到的这两个变量间的关系是否由根本就没被考虑进来的一些变量引起的,就好像下面将要提到的冰淇淋和孩子受伤的例子中发生的那样。对于实验得到的数据,情况往往会不同。在一个按照适当的统计原则设计的实验中,我们常常能控制其它变量来消除其影响,这样使得我们自己能确定因果关系。
为了判断自变量与因变量之间的关系是否为因果关系,我们应该:(1)用常识来判断这种关系是否在我们所知道的世界上有意义;(2)注意自变量是否发生在因变量之前:(3)如果可能,适当更改自变量,并观察因变量的值是否会受影响(也就是做个试验);(4)即使自变量是决定因变量的一个原因,也要认识到其它没被考虑进计划的其它重要变量可能影响因变量。

