一、信度与测验分数的解释
(一)解释真实分数与实得分数的相关
信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。
信度系数反映了实测分数变化与真分数变化的一致性程度。当rxx=1.00时 ,二者完全一致,实测数据的变异量(方差)全部是由于真分数不同引起的;当rxx=0.00时,则说明实测分数的变异量全部是由随机误差起伏变化引起的,实测数据变化没能反映真分数不同的任何信息;当rxx=0.90 ,说明实测数据变化的90%都是由真分数不同引起的,实测分数反映了真分数大部分的变化信息,具有高的可信度。所以,信度系数也反映了测量的随机误差比例。
(二)确定信度可以接受的水平
一般的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95;而人格测验、兴趣、态度、价值观等测验的信度一般在0.80~0.85或更高些。
当rxx<0.70时,测验不能用于对人的评价和预测,也不能用于作团体间的比较;
当0.70≤rxx<0.85时,可用于作团体比较;
当rxx≥0.85时,测验可用于对个人的评价和预测。
(三)解释个人分数的意义
X―1.96SE≤XT≤X+1.96SE 95%的可信范围
其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。
例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?
已知该智力测验的标准差为15,信度系数为0.84,则其IQ的测量标准误和可能范围为:
IQ=100±1.96SE=100±11.76≈88~112
例:一次测验有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84,求其真分数的可能的范围。
(四)比较不同测验分数的差异
这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。这就是差异分数的标准误问题。当使用两个测验对同一个人测试得到两个分数,两个分数有了一定的差异。测验的信度越高,这一差异量越有可能是测验本身的不同引起的;测验的信度越低,这一差异量越有可能是随机误差引起的而测验本身可能差异不显著。
考察不同测验的差异,首先从原始分转变为标准分,再比较差异的标准误。
例:某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢?
首先计算出差异分数的标准误:SEd=7.5
在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分,才能达到0.05显著水平。上述被试的差异分数110-102=8是不显著的。
例:学生甲的语文和数学成就转换成T分数(均数为50,标准差为10)分别为65和70分,语文和数学测验的信度系数分别是0.84和0.91,二者的差异有意义吗?
二、提高测验信度的方法
测验者在编制测验量表时应考虑以下两个问题:(1)信度系数到底有多大才能认为测验有较高的信度?(2)哪些因素影响信度的提高?
(一)测验信度以多大为宜
信度系数必须和测验的用途以及测验的内容和测验的条件等。
就测验的内容来说,标准学业成绩测验要求信度系数在0.90以上,长达到0.95。标准智力测验的信度系数应达到0.85以上。个性测验和兴趣测验的信度系数可稍低,一般应达0.7—0.80。
信度系数要多大才能认为测验可靠,不能一概而论。
(二)影响测验信度的因素
信度的大小,受测量测量误差的很大影响。误差分数的方差在实得分数方差中占的比重越大,信度就越小。
1、系统误差
不影响信度。由于仪器不准,或主试者对一些标准掌握过宽或过严等原因导致对结果成倾向性的偏大和偏小,称为系统误差。系统误差虽使测量不准确,但不影响结果的一致性,因而不影响信度。
2、抽样误差
是影响信度的一个因素。全距(最大分数与最小分数之差)大,说明真分数大小很悬殊;全距小,说明分数较整齐。真分数大小悬殊,参差不齐,则真分数方差大;真分数整齐,则真分数方差小。真分数方差在实得分数方差中占的比重越大,信度系数也越高。真分数越是大小悬殊,参差不齐,信度也越高。
3、随机误差
是影响信度的最主要的一种误差。
(三)提高测验信度的方法
1、延长测验的长度
测验的长度主要指量表所包含的题目的多寡的程度。量表的题目越少,测验越短,则得分越容易受试题抽样的偶然因素的影响,所以测验的信度也越低。反之,增加测验题目,延长测验长度,即可排除试题抽样的偶然因素的影响,也有可能扩大得分的范围,因而使信度系数增大,测验信度提高。
1、测验越长,测验的测题取样或内容取样越有代表性。
2、测验越长 ,被试的猜测因素影响就越小。
3、测验的项目越多,在每个项目上的随机误差就可以相互抵消。
测验长度的增加和信度的提高不是等比例的。
斯皮尔曼-布朗通用校正公式
其中,rKK为原测验长度增加到K倍时的信度系数,rXX为原测验的信度系数,K为新测验的长度(题数)与原测验长度(题数)之比。
表 测验长度与信度的关系
题数 | 与原测验题数之比 | 信度系数 | 效度系数 |
10 | 1 | 0.300 | 0.400 |
20 | 2 | 0.462 | 0.496 |
30 | 3 | 0.562 | 0.548 |
60 | 6 | 0.720 | 0.619 |
120 | 12 | 0.837 | 0.668 |
240 | 24 | 0.911 | 0.679 |
480 | 48 | 0.954 | 0.713 |
用增加测验题数以加大测验长度,从而提高信度的方法时,必须做到:(1)新增加测验题与原有的测验题应有相同的统计性质,即应有相同的平均难度和相同的组间相关。(2)加大测验长度应当不影响被试者回答问题的方法(即长度加大后,回答前面的问题不应成为回答后面问题的练习或准备;或者回答后面的问题时不致感到厌烦、疲倦或没有兴趣而与回答前面的问题时的方法不同)。
同质性项目
例:有一个包括10个题目的测验,信度为0.50,若把测验增加到50个题目,其信度将增加到多少?
例:一个包含60个题目的测验信度是0.80,欲将信度提高到0.90,需要增加多少题目?
2、测验的难度要适中
难度是指测验的难易程度。当测验难度太大时,应试者得分普遍偏低,形成正偏态分布;当测验难度太小时,应试者得分普遍偏高,形成负偏态分布。在这两种分布中,得分大部分集中在低分端或高分端,分数分布的范围和分数之间的差异都较小,用这些实得分数计算出的方差也较小。当实得分数的方差大时,信度系数也大;若实得分数的方差小时,信度系数也小。过难过易的测验都缩小分数的差异,使实得分数的方差变小,从而使信度降低。难度在0.40—0.70之间是合适的。
就一个量表中各题的难度来说,当各题的难度近似时,信度要高一些,当各题的难度悬殊,以致难度范围过宽时,信度便低一些,所以,要提高测验信度,应使难度的范围缩小,即尽量使各题的难度近似。
3、测验的内容应尽量同质
项目的同质性。性质相同的测验内容,对应试者也要求相同的能力、知识或技能。这种测验的信度高于内容庞杂,要求不同的能力、知识或技能的测验。为了提高测验信度,测验的内容应尽量同质,不要企图在一个测验中罗列许多性质不同的内容。
4、测验的时间要充分
当应试者受到时间的限制,不能从容回答所有问题时,就不能真实地反应应试者的实际水平,因而,也就会降低测验的信度。
5、测验的程序应统一
试题统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握,都对回答问题质量有影响,从而影响信度。所以,对测验程序要妥善安排,如要测验多次,程序应当统一。
6、评分要客观
评分是否客观,对信度影响很大。客观性测验,评分标准明确,打分客观,故有助于提高测验的 信度。论文式测验、投射测验、艺术鉴赏力测验的评分,由于各个评分者的“量尺”不统一,其他心理因素也可能对评分产生消极影响,以致评分比较主观,为了尽可能客观地评分,要制定容易掌握的评分标准,或一卷多人评定、或一人只评一题等。
7、加大应试者之间的差异
被试团体异质性。当测量被试者的某种特性时,如果各人的该种特性极不整齐,即人与人之间差异很大,那么,各人的实得分数就会有较大差异,因而实得分数的方差也就增大,当实得分数的方差增大时,信度系数也随之加大。而要加大应试者间某种特性的差异,可扩大样本和坚持随机抽样,其中,分层抽样的方法将更有助于扩大被试者的差异,从而期望产生较大的信度。
信度常用信度系数来表示,信度系数就是相关系数,相关系数受样本团体得分分布、样本是否异质及样本团体平均能力水平的影响。
1、样本团体分数分布的影响:当分布范围增大时,其信度估计就较高;当分布范围减小时,相关系数随之下降,信度值则较低。
2、样本团体异质性的影响:若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。
3、样本团体平均能力水平的影响:对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。
最后,应试者参加测验的动机水平、积极性、疲劳度也会影响实得分数,从而影响信度。引起应试者参加测验的强烈动机,提高其积极性,使其保持旺盛的精力,都对提高测验信度有一定作用。

