1
社会科学方法论
1.12.4.1 一、信度

一、信度

任何实得的测量分数都可以分成真实分数与误差分数两个部分。以测量体重为例,人站上体重秤上,可以得出一个观测值。任何测量都不可能是绝对精确的,必然存在着误差。误差越小表示测量越精确,误差越大表示测量越不精确。根据多个观察值所获得的平均数就是真实分数,这个真实分数是人们孜孜以求的测量结果。这种想法就形成了信度概念。观察值是由真实分数与误差构成的。误差越小,观察值与真实分数就越接近。误差大小可以让我们了解信度概念,误差愈大,则信度愈低。观察分数与真实分数愈接近,就表示信度愈高。

在定量研究中,信度是指采取相同方法对同一对象进行重复测量时,所得结果的一致程度。信度意味着由调查问卷所提供的信息不会因为测量指标、测量工具或测量设计本身的特性而发生变化。如果研究者使用可信赖的测量指标,就会在每次测量相同事物时获得相同的结果。这表明,在完全相同或类似的条件下,相同结果可以不断被重复生产出来或重复出现。反之,如果缺乏信度,测量就会产生反复无常、不稳定或不一致的结果。还是以测量体重为例,一个缺乏信度的体重秤每次都会显示不同的体重,即使人体“真正”的体重并没有发生任何变化。

在定量数据的收集过程中,如果研究者使用相同的方法和步骤,那么受访者对此作出相似的反应,这说明该研究达到了信度的要求。信度还意味着,其他研究者在不同的研究中对相似被试使用相同的观测手段也能获得相似的研究结果。信度大小通常用克隆巴赫系数(Cronbach,1951)表示,一般而言,信度系数即alpha(α)系数达到0.70以上就可以接受了。但是,这只是一般可以接受水平,不能绝对化。如果测量对象很容易被测量,比如社会经济地位,那么信度系数可能要达到0.80以上。如果测量对象很难被测量,比如社会资本,那么较低的信度系数也是可以接受的。

定量研究有不同形式的信度,它们是:稳定性信度、代表性信度和等值信度。

(1)稳定性信度(stability reliability)。稳定性信度涉及跨时间信度,它涉及的问题是:“用相同指标在不同的时间里进行测量会获得相同的结果吗?”上面有关体重秤的例子就是这种形式的信度。研究者可以用两次测量的方法来检验测量指标是否具有稳定性信度。这就说,用相同的测量指标对相同人群再做一次检测。如果所测量的事物是稳定的,测量指标也具有稳定性信度,那么每次检测都会得到相同的结果。

(2)代表性信度(representative reliability)。代表性信度涉及跨群体的信度。它涉及的问题是:“用相同测量工具或指标对不同人群进行测量会获得相同的结果吗?”如果用相同指标来测量不同阶层、民族、性别或年龄的人群时,都会得到相同的结果,这说明该指标具有较高的代表性信度。例如,一个关于年龄的问题,如果20岁年轻人给出超过其真实年龄的答案,而50岁中年人给出低于其真实年龄的答案,那么这个问题只有很低的代表性信度。如果这个问题要具有较高的代表性信度,那么该测量工具就要测量出每个年龄段人群的真实信息。

(3)等值信度(equivalence reliability)。等值信度涉及多个测量指标,也就是说,在对某个概念结构进行操作化时,使用多重测量指标。具体而言,就是问卷中要有若干个测量同一个概念结构的问题。它涉及的问题是:“不同的多重测量指标会得出一致的结果吗?”这就是说,如果用不同的多重指标来测量相同的概念结构,只要这些指标具有较高的等值信度,就一定会得出相同的结果。研究者通常使用折半法(split-half method)来检验多重指标的等值信度。这涉及到测量相同概念结构的多重指标随机分成两组,然后再根据这两组测验分数,来判断这两组多重指标是否会得出相同的结果。例如,用来测量社会资本概念的30个问题具有较高的等值信度,把它们随机分为各有15个问题的两张问卷,会得到相同的测试分数。

获得具有完美信度的测量指标几乎是不可能,但是,研究者可以通过各种办法来提高测量工具的信度,这些办法包括:

(1)清楚地界定概念结构。如果对某个单独概念结构进行测量,那么就会提高信度。这意味着研究者应当清晰地界定理论概念及其结构,以消除其他概念结构可能带来的干扰。每种测量只能预测单个唯一概念,否则就无法确定被预测的究竟是哪一个概念。例如,研究者想要测量教师士气概念,就必须把士气与心情、人格、精神、工作态度等一系列其他相关的概念区分开来。如果做不到这一点,就可能无法弄清所测量的究竟是什么概念。如果士气指标同时也显示人格,就说明人格结构干扰了士气结构,这个士气指标的信度不高。糟糕的测量通常是用同一份问卷的项目或问题同时代表士气与人格这两个完全不同的概念结构。

(2)增加测量取值类别。与测量类别不多或测量不太精确的指标相比,测量类别较多或测量比较精确的指标通常具有更高的信度,这是因为前者所获得的信息不如前者那么详细。如果所要测量的信息比较具体,那么就不太可能测量这个结构以外的其他事物。一般的原则是,尽可能用最精确的测量等级来测量概念结构,但是,用较高的测量等级进行测量并不太容易。例如,有测量教师士气的两个量表,其中一个量表只有“高-低”两个取值,而另一个量表则有从“非常低”到“非常高”共10个类别取值,在这种情况下,选择10个取值类别来进行测量,会有更高的信度。

(3)使用多重指标(multiple indicators)。使用多重指标是提高信度的一种有效办法,因为对同一概念结构进行测量,使用两个或多个指标要好于只用一个指标。多重指标可以对某个概念结构的不同维度进行测量,每个维度都有相应的指标,从而实现对这个概念结构更广泛的测量。单个指标或单个问卷问题可能并不完美,但是多个测量指标就会避免犯类似的错误。多重指标测量工具会比单个项目测量工具更加稳定。例如,教师士气概念有三个测量指标:学校态度、缺勤次数、教师抱怨次数。这三个测量指标要好于将这三个指标合并成一个整体测量工具。

(4)使用预调查(pilot study)。对测量工具进行预调查是提高信度另一种有效方法。采用未经预调查的测量工具是粗糙的,任何新设计的测量工具至少要做一次预调查以确保其信度。在正式调查之前,通过预调查来检验测量工具的具体信度,并以此为依据对测量工具进行修改。尽管这个程序可能耗时费神,但是有助于提高测量工具的信度。例如,对教师士气测量指标的预调查,可以及时发现某些问题是否表述清楚,是否会产生歧义等,以便进一步修改测量指标,提高其信度。