1
社会科学方法论
1.11.6.1 一、定量数据分析

一、定量数据分析

定量研究方法涉及大量数字,对此要进行仔细地核对和整理,然后才能用统计程序来进行分析。在电脑普及之前,对数据的整理和分析是用手工来完成的,但现在基本上借助于电脑分析软件来完成。目前社会研究领域最常使用的统计分析软件是“SPSS 19.0”(Statistical Package for Social Sciences)、“SAS 17.0”(Statistical Analysis System)和“Stata 10.0”(Stata Statisctical Software)。统计分析软件大大提高了整理和分析数据的效率。

分析数据的目的是为了从数据中获取意义,其实在此之前的所有研究过程都是为了寻求这些意义。定量数据分析的最初步骤是编码和编辑。所谓编码就是将问卷的原始信息转换成电脑可读取的格式,比如把男性编码为1,把女性编码为2。编码的目的在于确定类别或进行分类,以便将答案分配到特定的类别中。就类别而言,没有绝对正确的类别编号,相反,类别编号取决于研究问题和具体数据。一般而言,封闭性问题编码比较简单,因为这种编码是确定的,而开放性问题编码则比较复杂,因为答案往往不止一个,而且答案因人而异。编辑的主要目的是为了使数据达到一定的质量要求,编辑包括对调查数据的检查和更正,检查能甄别出相互冲突的信息,仔细校阅会找出一些明显的错误,比如,受访者在答题时全部选择了李凯尔特量表中1或5极端答案,这说明受访者没有认真地填写问卷。

(一)描述性统计分析

统计分析包括描述性统计分析和推论统计分析,前者主要涉及对数据分布和变量间关系的描述,而后者需要从样本数据去推断总体特征。描述性统计分析主要回答“是什么”问题,比如“某个大学有多少教师采用研讨式教学法”“某社区青年志愿者活动的频数是多少”等。描述性统计通常要对数据的集中量和差异量以及变量间关系进行描述,集中量是描述数据的一个主要指标,最常用的集中量指标包括平均数、中数、众数。平均数是指算术平均数,即分数总和除以分数个数的值,如母亲的平均年龄是29岁。中数是分布中较大一半与较小一半中间的那个数。众数是指出现频率最多的分数,一般用得不多。集中量是指量度上的一点即点值,而差异量则涉及一段间距,代表了数值在某个集中点附近的离散程度,全距、方差和标准差是三个最常用的差异量。全距是最简单的差异量,代表最高值与最低值之间的差额,但所能提供的信息量有限。标准差和方差是两个最常用的差异量指标,是指量度上的一段间距或间距平方,代表了分布的离散程度,如母亲年龄的标准差是4.1,这就意味着母亲年龄是围绕29岁这个平均数在4岁左右的范围内波动。

(二)推论性统计分析

推论统计分析是用样本数据来推论总体特征或表现的程序。研究者通过描述性统计分析,会得到样本平均数和标准差等统计值。总体也有类似的描述值,被称为参数。由于无法直接从总体数据去算出参数,因此只能通过样本统计值和抽样分布的信息来推论总体数据。例如,研究者可以用样本的平均年龄(统计值)来估计总体的平均年龄(参数)。值得注意的是,推论统计分析需要满足统计的三个预设(assumptions):①在概率论基础上确定统计检验的显著性标准;②总体和样本呈正态分布,其数据形状类似“钟形”,中部有一个峰值,两边呈对称分布;③样本是随机抽取的,即按随机方式将被试分配到自变量的各个类别中。如果不能满足上述三个预设,那么统计结果就只能停留在描述性层次,无法推论到更大的总体。

推论统计分析主要包括假设检验和参数估计等方法。所谓参数估计是用随机样本的统计值来估计总体的参数。假设检验首先对总体情况作出预测,提出对某个参数的假设或猜想,然后抽选随机样本,用样本的统计值来检验原先的假设或猜想是否正确。如果一致,就要保留假设,否则就要放弃假设。例如,为了了解某大学新生英语阅读水平,研究者随机抽取了300名新生样本,得到英语阅读水平测验的平均分为75分,研究者大胆预测总体平均分为76分。结果研究者有关总体平均分为76分的假设得到了确证,因为样本平均分75分正好落在抽样波动的范围内。

假设检验的方法有很多,主要分为参数检验和非参数检验两大类。参数检验(比如t检验或方差分析)对样本所属的总体作出了预设:样本是随机抽样的,平均值的抽样分布是正态的,组内方差齐性,数据属于等距变量等。如果数据严重违背了参数检验的预设,比如数据属于定名变量或定序变量,那么就要使用非参数检验(比如卡方检验或曼·惠特尼U检验)。非参数检验通常比参数检验更容易计算,但是局限性较大。