如果以估计效度的方法为标准,那么,可以把效度分为两类:一类称为逻辑效度,效度的高低根据教育学或心理学的原理推论和判断,如内容效度和结构效度;另一类称为统计效度,效度的高低可以通过统计计算而用数量指标描述,如目标关联效度。
一、内容效度(Content Validity)
基于所测内容的效度验证方法。
是指测验目的代表所要测量的内容和引起预期反应所达到的程度。指的是项目对欲测的内容或行为范围的取样的适当程度。也即测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。
内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。以考查学生成绩为目的的测验来说,“所欲测量的内容”是指教学大纲所规定的全部教材。“预期的反应”是指学生学习这些教材所产生的行为变化。若测验题目恰当的代表了教学大纲所规定的全部教材,那么便能在学生身上引起预期的行为反应;若根据学生的反应可以正确的测量出学生的学习成绩,那就可以说这个测验具有较高的内容效度。研究的目的是要评估测题是否充分代表了所要测量的内容范围,及测验题目对有关内容或行为范围取样的适当性,它所关注的是测验的内容方面。比如,教师为了解学生在某一学科知识掌握的情况,要进行一个全面的考试。考试不可能包含所有学科内容。于是,就从学科知识范围可能的题目中取样来编成测验,根据测验分数推论学生学科知识掌握的情况。如果测验题目的取样代表性好,则推论将有效;如果题目取样有偏差,则推论将无效。
主要应用:学业成就测验、职业资格测验、人员选拔与安置中的工作样本测验。
一个测验要有内容效度必须具备两个条件:
1.要有定义得完好的内容范围。所谓内容范围可以是具体知识或技能,也可以是复杂的行为。要对所测量的心理特性有个明确的概念,并划定出哪些行为与这心理特性有关。如:20以内的加减法、中小学生的心理健康的特点和表现。
2.测验项目应是已界定的内容范围的代表性样本。
(一)逻辑分析的方法
这是根据教育学和心理学的理论,根据教学大纲的要求,勾划出学生应掌握的知识内容的范围和深度,提出应形成的技能名称等,然后以逻辑分析的方法估计测验题目在多大程度上代表这些内容,在多大程度上能够测量出所要测量的特性和功能。
专家判断是一种确定内容效度的典型程序,它要求让一组独立的专家(他们不是测验的编制者,但是非常熟悉所测量的内容领域)判断测题对所研究的领域的取样是否有代表性,通过这些评定资料来确定一个测验的内容效度。
专家的判断多是依赖于对内容的逻辑分析,所以这种评估的效度也叫做逻辑效度。
专家判断
内容效度比(CVR)=
内容效度比低的题目就应该被淘汰.然后计算全部测题的内容效度比的平均数,作为内容效度的指标。
缺点:1) 没有量化指标;2) 对内容效度的判断不一致;3) 教育思想或心理学观点不同,所以对内容范围的理解也不同。
其具体步骤是:
(1)明确欲测内容的范围
明确欲测内容的范围包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。
(2)确定每个题目所测的内容
确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。
(3)制订评定量表
制订评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等等,对整个测验的有效性作出总的评价。
(二)克龙巴赫方法
从同一个教学内容总体中抽取两套独立的测验题目,用这两套试题分别对相同的一些应试者进行测验,两次测验得分的相关系数,可以用来估计内容效度。若相关较高,可以认为内容效度亦高;若相关较低,则两次测验中至少有一次内容效度低。
在传授某种知识之前先对应试者进行一次测验,这时应试者对测验的内容当然知之甚少;然后正式传授这种知识,一定时间后测验所学内容,比较两次测验结果,也可以看出是否测量了课堂上所教的内容。
(三)统计分析法
计算两个评分者之间评定的一致性(评分者信度)
两个测验复本上得分之相关(复本信度)
再测法(测验-学习-再测验)。再测法的操作过程是:在被试学习某种知识之前作一次测验(如学习电学之前考电学知识),在学过该知识后再作同样的测验。这时,若后测成绩显著优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。
(四)经验推测法
这种效度是通过实践来检验效度。例如:儿童发展量表
通过率
内容效度的应用
(1)是编制任何测验应加以考虑的基本方面。
(2)较适用于评价教育成就测验和职业选拔测验。
(3)对标准参照测验更为重要,是因为在标准参照测验中我们主要关心的是被试对一定范围的知识、技能掌握得如何。
(4)注意内容效度与表面效度的关系
(5)它缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。
内容效度的应用范围
(1)内容效度主要应用于成就测验。
因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度的。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。内容效度高,则可以把被试在该测验上的分数推论到他在相应的知识总体上去,说他在某个方面水平处在一个什么样的位置。反之,内容效度低,则这种推论将是无效的。
(2)内容效度也适合于某些用于选拔和分类的职业测验。
这种测验所要测的内容就是实际工作所足的知识和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。
应该注意的几点
(1)内容效度不适合用于能力倾向测验和人格测验。
(2)在使用内容效度时要避免与表面效度相混淆。
表面效度是外行人对某个测验从表面上看好象是测某种心理特质的一种现象。当外行人认为某个测验能有效地测得某种心理特质时,该测验就被认为有较高的表面效度。
一般来说,最佳行为测验往往表面效度高,其他测验则希望表面效度低。
二、结构效度(构想效度、构念效度)(construct Validity)
基于所测心理结构的效度验证方法。是指测验分数能够说明心理学理论的某种结构或特征的程度,或测验实际测量了所要测量的结构和特性所达到的程度。
结构是指用来解释人类行为的理论框架或心理特质,它是心理学中抽象的假设性的概念、特性或变量。它是指测验能够测量到理论上的构想和特质的程度,即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。
主要应用:各种心理测验,如智力测验、人格测验、焦虑测验、成就动机测验等。
构想效度的特点:
(1)其大小首先取决于事先假定的心理特质理论
(2)当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效不高,因为还有可能是理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况,当然这就使得结构效度的获取更为困难。
(3)结构效度通过测量什么、不测量什么的证据累积起来给以确定,因而不可能有单一的数量指标来描述结构效度。
结构效度的确定方法:
(1)提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。
(2)依据理论框架,推演出有关测验成绩的假设。
(3)用逻辑和实证的方法来验证假设。
结构效度的验证就是考察每一个测验测量到其所拟测量的结构与特质的程度。以判断结构的步骤来说,(1)建立理论结构;(2)根据理论结构提出有关测验成绩的假设;(3)用逻辑和实证假设。对于结构效度,只能用下列方法作逻辑的推论。
估计方法:
(1)对测验本身的分析
测验的内容效度。分析某种结构和特征与测验题目的联系,看这些题目是否能测量该种结构和特征。因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释,所以,内容效度高实质上也说明结构效度高。
测验的同质性。若有证据表明该测验不同质,则可以断定该测验结构效度不高。当然,测验同质只是结构效度高的必要条件。
分析被试者对题目的反应特点。若有证据表明某一题的作答除了反映着所要测的特质外,还反映着其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低结构效度。
(2)测验间的相互比较
相容效度。聚敛效度(相容效度、求同效度)就是测量某种心理结构的测验分数,要与测量相同结构的其他测量的分数具有高相关。
区分效度。区分效度(求异效度)是测量某种心理结构的分数要和测量不同结构的测验分数具有低相关。
多种特质——多种方法矩阵法。该方法的实质是相容效度和区分效度法的综合运用,其原理是若用多种极不同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。于是,若有多种特质都接受了多种方法的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个矩阵,从而得到测验效度的指标。

(3)效标关联法
如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标,至少可以从效标的性质与种类作为该测验的结构效度指标。
其做法有两种:一是根据效标把人分成两类,考察其得分的差异。例如,一组被公认是性格外向的人在测验中得分较高,另一组被公认为是性格内向的人在测验中的得分较低,则什么说明该测验能区分人的内向与外向特征,进而说明该测验在测量的性格内外向方法有较高的结构效度。二是根据测验得分把分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明高测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不大,则说明该测验符合理论构想。如,两组被试,神经症被试和正常人。
(4)实验操作法
如,举行两场考试,使被试相信一场考试关系重大,另一场考试无关紧要,在考试前进行焦虑测验,看被试的焦虑测验分数是否存在显著的差异,分析原因。
例如
构想:考试焦虑是当考试结果对个人有重大意义时的一种害怕失败的紧张情绪¡±。
有一个焦虑测验,考察这测验是否有构想效度。
设计几种试验情境:
设计1:
比较不同重要性考试时该测验的分数
按照构想,重要考试时焦虑分数高
平时考试中实施此焦虑测验
重要考试之前施该焦虑测验
比较两次分数,如重要考试前的焦虑分数显著提高,就说明这个测验对测量考试焦虑是有效的。
设计2:
举行两场考试,使被试相信一场考试关系重大,一场考试无关要紧。挑选两组被试,高焦虑组和低焦虑组。比较考试成绩,出现下述情况,说明测验有构想效度:
焦虑分数高组学生,如在第一场考试中成绩比平时有所下降,在第二场考试中却能正常发挥。
焦虑分数低组学生,无论在哪场考试都发挥正常。
设计3:
收集被试在经历一场重大考试时的生理心理参数作为焦虑的指标
将其同焦虑测验分数比较
相关高证明焦虑测验测量了焦虑这个特质。
对构想效度的评价
(1)构想效度促使研究者把着眼点放在提出假设上、检验假设上,使得测验成为理论研究的重要工具,而不再只是实际决策的辅助工具,从而使测验有了更广阔的发展情景。
(2)主要缺点是,有些构想概论模糊,没有一致的定义,确定效度时没有明确的操作步骤,没有单一的数量指标来描述有效程度。
三、效标关联效度(准则关联效度)
基于效标关联性的效度验证方法。又称实证效度,是指测量分数与作为效标的另一独立测验结果之间的一致程度。这种一致程度用本测验分数与另一独立测验结果之间的相关系数来描述。反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准,简称效标。由于这种效度是看测验对效标预测如何,所以叫效标效度。这种效度需在实践中检验,所以又称为实证效标。
实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性,也就是说,一个测验是否有该以实践的效果来作为检验标准。而被估计的行为是检验测验效度的标准,简称为效标。实证效度主要重些与测验独立的效标行为,而不太注重测验内容或结构。实证效度也称效标关联效度。如,当我们用机械能力倾向测验测查了一大批机械工人之后,若有证据表明测验高分组的实际工作成绩确实优于低分组的实际工作成绩,则可以认为该测验具有较高的实证效度。又如,在军队选拔汽车驾驶兵时,若用测验选出来的兵在学习驾驶技术,以及日后的驾驶过程中的表现都大大好于以前未用测验随意指派的汽车兵,则表明该测验也具有较高的实证效度。
例如:用大学入学成绩预测大学生的学习成绩。用职业测验预测工作能力。用人格测验预测哪种人容易得精神病等。
(一)效标
效标是指本测验所想测量或要预测的特性或功能,这些特性和功能通常以另一种独立测验的结果来表示。是衡量测验有效性的参照标准,指的是可以直接而且独立测量的我们所感兴趣的行为。
常用的效标包括:(1)学业成就:如在校成绩、学业测验分数、学历等可以作为智力和学习能力测验的效标。(2)实际工作表现。(3)特殊训练成绩。(4)精神病诊断:临床观察诊断的结果可以作为智力、人格等测验的效标。(5)等级评定:如对学习成绩、智力、人格、工作等表现可以通过判断评定一个量数,用来作为各有关测验的效标。(6)效标团体的比较(7)先前有效的测验。这些效标可以是连续变量,也可以是离散变量;可以是自然的现成指标,也可以是人为设计的指标;可以是主观判断,也可以是客观测量;可以是自我评定,也可以是他人评定等等。
一个好的效标必须具备以下条件:(1)有效性。即效标能最有效地反映测验的目标。(2)可靠性。即效标必须具有较高的信度,稳定可靠,不随时间等因素而变化。(3)可操作性。即效标可以客观地加以测量,可用数据或等级来表示。(4)实用性。即效标测量的方法简单,省时省力,经济实用。
(二)效标测量:
将观念上的效标用可操作的测量确定下来。同一个观念效标可以有多个效标测量(多样性),而且每一种效标行为往往都是由多种特质构成,因此,效标测量是件极为复杂的事(复杂性)。又因效标测量有多种多样,所以有些效标测量只可以反映测验在某一特殊方面的有效性程度,即,在一种情况下有效的测量,在另一种情况下未必有效(特殊性和时间性)。这就要求测验的编制者和使用者要特别小心。一般说来,效标测量要想较好到体现观念效标,那效标测量本身就必须是有效的和可靠的,而且还必须客观、使用。
例如:对于大学入学测验来说,我们感兴趣的或要预测的行为是“大学的成功”,即入大学后能否学得好。“大学的成功”就是观念效标,我们必须要数量化或操作化。比如大学的成绩常常就用来作为对“大学的成功”的测量,所以,大学成就就是效标测量。
防止效标污染,即指个人的效标因评定者知道个体的测验分数(也叫预测源分数)而受到影响。
(三)效标关联效度的种类:
1、同时效度
同时效度是一种测验的结果与另一大约同时获得的测验结果(即效标)之间的一致程度。同时效度的高低用两次测验结果的相关系数来估计。如:人格测验的结果可以用家长、同学的评定作为效标。大学入学考试可以用中学成绩作为效标。
同时效度的主要作用是:(1)以已知的具有高效度的测验作为参照标准,检验自编测验是否有较高的效度。(2)在把一些手续复杂费时的测验改变为简便易行的测验时;或把个别测验改编为团体测验时,需要知道两种测验的同时效度,以便决定改编后的测验是否能使用。(3)如果我们想知道某项测验的预测功能,当然应计算其预测效度。
估计同时效度主要使用计算积差相关系数的方法,把本测验分数与效标分数的相关系数作为效度系数。
估计同时效度时要注意两点:(1)两套测验都必须测量同样的特性和功能。(2)作为效标的那套测验,应当是在理论上无懈可击,其效度是得到实践证明的。
2、预测效度
是指测验结果对未来的行为或测验成绩(效标)能够准确预测的程度。如:用大学入学考试的成绩预测大学的学习是否成功。用人格测验预测是否会得心理疾病。求职业兴趣测验的预测效度。
预测效度和同时效度有两点区别:(1)从进行测验到获得效标的间隔时间不同。同时效度的效标测验几乎与本测验同时举行;预测效度的效标则在本测验之后相当长的时间(几个月到几年)才获得。(2)目的和作用不同。同时效度主要用来查明自编测验的效度,以便有效地研制和使用新测验;预测效度主要用来评价本测验的预测能力。
(四)效标关联效度的估计方法:
1、相关法
①皮尔逊积差相关公式
在两组数据都是连续变量,且两者存在线性关系时使用。

积差相关公式及其计算
②斯皮尔曼等级相关公式
在两组数据都是等级变量。
![]()
③点二列相关系数
适用于一列数据为等距正态变量,另一列为离散型二分变量。
如:对某个群体进行心理病理方面的人格测验,以是否患精神疾病为效标。
![]()
p与q是二分称名变量两个值各自所占的比率
st是连续变量的标准差
④二列相关系数
在测验分数和效标这两个变量中一个是连续变量,另一个是二分变量(被人为地分成两类)时使用。如:对初中生进行学习能力测验,以是否考上重点中学为效标。
二列相关公式:

2、区分法
是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后,便可知道分数的差异是否显著。若差异显著,说明该测验能够有效地区分由效标定义的团体,否则,测验是无效的。重叠百分比可以通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出;另外,还可以计算两组分布的共同区的百分比。重叠量越大,说明两组分数差异越小,即测验的效度越差。
预测源分数能否区分由效标测量所定义的团体。
检验平均数
测验录取一批工人,工作一段后,根据工作成绩(产品数量、质量)分成称职和不称职两组,然后再检查当初的测验分数,用t检验看两组在测验的平均分数上有无显著的差异,如果有,说明测验有预测作用,否则就没效。
当团体数量大时,很小的一点平均数的差异都会有显著意义,此时测验区分这些团体的实际价值就很小。为了避免上述问题,必须把两组的平均分数、标准差、重叠量以及平均分数的差异在统计学上的显著性一并报告。
3、命中率
当测验用来作取舍的根据时,其有效性的指标就是正确决定的比例。命中率的计算有两种方法,一是计算总命中率,另一种是计算正命中率。
预测源分数确定一个临界分数(分数线),高于分数线者接受,低于分数线拒绝。在效标方面根据情况确定一个标准,高于标准为成功,低于标准为失败。此时可以得到预测命中表。
失败(-) | 成功(+) | |
成功(+) | A(失误) | B(命中) |
失败(-) | C(命中) | D(失误) |
其中,总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高。这种测验在区别合格者与不合格者方法是有效的。
正命中率是指用测验选出的人中合格者所占的比例。这个比例越高,测验越有效。这类测验只关心被选中合格者有多少,而不关心被淘汰者中是否有合格者。这时测验的效度应该用测验的正命中率来评价。
另外,在评价一个测验的效度时,还要注意测验使用的功利率比例,即:使用测验所带来的好处应大大高于使用测验所耗费的时间、精力和经费,还要比较用测验与不用测验的效益之差,若差别不大,则没有使用测验的必要。
4、利用回归方程估计效标分数及计算其置信区间。
(X-1.96SE)≤T≤(X+1.96SE)
四、表面效度
是指从外表直观地看来这个量表可以测量所想测量的特性和功能的程度。如果应试者一看量表题目与己无关,与他所认为的测验目的无关,将会对他测验积极性和认真态度产生消极影响。再如,测验题目的用词不当,表述够清楚,印刷草率等,也会影响测验结果。这些都可视为表面效度。
表面效度能间接影响测验的效度,所以测验编制时也要适当关注表面效度。
内容效度与表面效度的区别
表面效度 | 内容效度 |
是由外行对测验作表面上的检查所确定的。 | 是由够资格的专家详尽地、系统的对测验作评价而建立的。 |
只考虑题目与测量目的之间明显的、直接的关系。 | 同时考虑题目与测量目的和内容总体之间的逻辑的微妙关系。 |
表面效度与内容效度并不总是一致的。表面效度是由外行对测验作表面上的检查所确定的。内容效度是由够资格的专家详尽地、系统的对测验作评价而建立的。前者只考虑题目与测量目的之间明显的、直接的关系。后者则同时考虑题目与测量目的和内容总体之间的逻辑的微妙关系。
最高行为测验(如能力测验)要求有较高的表面效度,以使受测验者具有较强的动机,尽最大的努力完成。典型行为测验(如人格测验)却要求较低的表面效度,如果受试者很容易就从题目上看出测题的目的,就可能作出假的反应。

