编造测验的方法,依测验的性质而异。不同类型,不同用途的测验,编制的具体过程是不同的。但由于测验原理大体相同,因而可以概括出一套通用的编制程序。总的说来,编制心理测验一般要经过以下几个步骤,确定测验的目的,制定编题计划,编辑题目,题目的试测与分析,集合成测验,将测验标准化,对测验的鉴定,编写测验说明书。
一、确定测验目的与对象
测验的目的是指测验作什么用。测验有许多不同的功用,测验的编制程序由于其目的不同而有许多变化。比如,常模参照性测验与标准参照性测验在测验编制过程中就有许多不同的侧重点。
(一)测量对象
在编制测验前首先要明确测量对象,也就是该测验编成后要用于何种团体。还应该考虑受测团体的组成和特点。例如被试的年龄、智力水平、受教育程度、社会经济和文化背景以及阅读水平等。不同的变因,对测验的难度、取样范围、形式等要求也不同。
(二)确定并分析测量的目标
所编的测验用来测量什么,是能力、人格还是学业成就,也是必须首先考虑的问题。不但要明确测量的目标,还要对测量目标加以分析,将此目标转换成可操作的术语,即将目标具体化。
测量目标是指所编测验用来测量什么心理变量。在实际工作中,测验的编制者必须把测试目标转换成可操作的术语。这种过程一般可分三种情况:一是编制带有预测功能的心理测验,如职业兴趣或能力倾向测验,我们首先要对所预测的活动作“工作分析”,确定使活动达到成功所需的心理特质以及衡量是否成功的测验作业标准。二是编制针对某种心理特质的测验,首先要给所测量的心理特质下一操作定义,然后计划通过哪些方面加以测量。例如,有人将创造力定义为发散性思维的能力,即能对规定的刺激产生大量的、变化的、独特的、灵巧的反应。据此操作定义,一些测验便从反应的流畅性、变通性、独创性和精致性来测量创造力。例如,若要测量人的态度,必须按照态度的定义分为认知方式、情感表达和行为倾向3个层面,并给出这3个层面的操作性定义,然后按照操作性定义编制测题。三是编制标准参照测验,首先要确定测验的内容以及每项内容应掌握的程度(行为目标),然后设计一个双向细目表,作为编制测验的蓝图。
(三)测验用途(测量目的)
所编制的测验是要对被试做描述,还是做诊断,抑或是选拔和预示,这一点也是在测验编制前就应明确的。目的不同,编制测验时的取材范围以及试题难度等也不尽相同。
心理测验的用途就是指我们编制测验是干什么用的,是要对被试做描述,还是做诊断,抑或是选拔和预示,这一点在测验编制前就应明确。用途不同,编制测验时的取材范围及试题难度等也不尽相同。
显示性测验:指测验题目和要测量的特征相似的测验,比如成就测验,它所反映的是被试具有什么能力,能完成什么任务。
预测性测验:为了预测一些没有被测量的行为的测验,即希望测验能作出对未知情况的预测。
例如:塞斯顿基本心理能力成套测验
美国著名心理学家塞斯顿,采用因素分析方法,对56个分测验之间的交互相关进行因素分析,概括出七种基本心理能力,提出了智力的多因素结构理论,并围绕着这七种基本心理能力,编制了一套由七个分测验组成的“塞斯顿基本心理能力成套测验”。这七个测验分别是:
(1)言语理解,即测量阅读时理解文意的能力。
(2)数字计算,即测量运算的速度和准确性。
(3)知觉速度,即测量迅速而正确地观察和辨别事物异同点的能力。
(4)词语流畅,即测量词义联想迅速和正确的能力。
(5)记忆,即测量机械记忆的能力,包括强记单词、数字、字母等方面。
(6)归纳推理,即测量根据已知条件进行推理判断的能力。
(7)空间知觉,即测量运用感官及知觉经验以正确判断空间方向及关系的能力。
塞斯顿于1941年正式出版了“基本心理能力测验(简称为PMAT),这是当时较为著名的智力测验。
又如,在60年代后期,人们开始对测量创造力发生兴趣。作为指导测验编制的操作定义,有人将创造力看作发散思维的能力,即对规定的刺激产生大量的、变化的、独特反应的能力,据此定义从反应的流畅性、变通性(灵活多变)和独创性三方面来测量创造力。
二、拟定编制计划
编制计划,实际上就是对测验的总体设计,指出测验的内容结构和项目形式等,以及对每一个内容、目标的相对重视程度。不同的测验有不同的编制计划。编题计划,实际上就是编制测验的蓝图,通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容、技能的相对重视程度。不同的测验有不同的内容和技能,对于学绩测验来说,所谓内容就是某一学科教材中的各个课题;所谓技能,就是在教学中要达到的行为目标。
编题计划要明确的信息主要有两个方面:一是全面而具代表性的测验内容,不致使测题偏离了应测的范围;二是对各个内容点的相对重视程度,通常用百分比来标明。
如成就测验的编制计划通常是一张双项细目表,其中一项是内容,就是某一学科中的各个课题,另一项是在教学中要达到的行为目标。美国心理学家布鲁姆(B•S•BlJoom)最早提出教育目标的分类问题。他把学习的心理活动分为认知、精神运动和情感三个领域,又把认知领域具体分为知识、理解、应用、分析综合、评价六个层次。在布鲁姆等人编的《教育目标的分类》一书中,为每个认知层次提供了许多题目范例。后来人们一般就依据布鲁姆的认知性行为目标编拟学科试题,以测量学生的学习结果。
例如:小学自然常识测验的编题计划
行为目标 教材 内容 | 获得基本知识 | 理解基本原理原则 | 应用原理原则 | 分析因果关系 | 综合成系统见解 | 建立评价标准 | 合计 |
生物世界 | 3 | 5 | 6 | 3 | 2 | 1 | 20 |
资源利用 | 2 | 3 | 3 | 1 | 1 | 0 | 10 |
动力和机械 | 2 | 3 | 4 | 2 | 0 | 1 | 12 |
物质、物性与能量 | 5 | 6 | 8 | 3 | 2 | 1 | 25 |
气象 | 2 | 4 | 3 | 2 | 2 | 0 | 13 |
宇宙 | 2 | 5 | 4 | 1 | 0 | 0 | 12 |
地球 | 2 | 2 | 2 | 1 | 1 | 0 | 8 |
合计 | 18 | 28 | 30 | 13 | 8 | 3 | 100 |
测验计划有两个用途:(1)在编制阶段,测验计划指出编多少和编哪些种类的项目;项目编好后,可将项目的实际分布情况与测验计划对照,以确定测验项目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。(2)在记分时可按表中百分比确定每类项目的分数。
三、设计测试项目
测验编制过程中最重要的步骤是测验题目的编写和搜集。
(一)搜集有关资料
测验计划编好后,就要搜集有关资料作为命题取材的依据,一个测验的好坏和测验材料的选择适当与否有密切关系。
1、资料要丰富。资料搜集越齐全,设计项目便越顺利,这样测验内容便不致有所偏颇,而且能提高行为样本的代表性。无论是能力还是人格,均是十分复杂的复合性心理结构,不能仅凭一两种简单的项目去推断一个人的智愚或人格特征,必须包含许多不同类型的材料。
2、资料要有普通性。所选择的材料对测验对象要尽可能公平,即被试者都有相等的学习机会。如编制标准化的学科成就测验时,要以统一的教学大纲和统编教材作为题目来源,不能只考虑个别教师的意见,要考虑大多数教师和专家的意见。在编制智力测验时,则要尽量避免特殊知识经验和文化水平的影响。当编制智力测验时,所收集的资料对于不同文化背景、不同经济地位、不同地区的个人或团体应当是公平的,应尽可能避免特殊知识经验对测验结果的影响。当编制人格测验时,所收集的资料应当能够全面反映某一文化背景中的团体的基本人格特征。
3、资料要有趣味性。资料的趣味性可以减少受测者由于缺乏足够的动机而引起的测量的误差。
题目的来源可分为三个方面:
1、已出版的标准测验
最简单、最直接的方法是从已经出版的各种标准测验中选择合适的题目。
2、理论和专家的经验
理论和专家经验有时也可以作为题目的来源之一。
3、临床观察和记录
临床的观察也可以作为题目的来源。
(二)选择项目形式
测验编制者还必须确定题目的表现方式,是纸笔测验还是操作测验,是只要受测者认出正确答案,还是需要他自己做出正确答案。在大多数情况下,任何题目都可以用几种形式呈现,问题是如何选择“最优的”形式。在一个测验中,可以采用一种形式,也可以采用几种形式。
在选择项目形式时,要考虑以下几点:
1、测验的目的和材料的性质。
如要考查学生对概念和原理的记忆,宜用简答题;要考查学生对事物的辨别和判断的能力,宜用选择题;要考查综合运用知识的能力,宜用论文题。
2、接受测验的团体的特点。
如对幼儿宜用口头测验,对于文盲或识字不多的人不宜采用要求读和写的项目,而对有言语缺陷的人(如聋哑、口吃)则尽量采用操作项目。
3、各种实际因素。
当被试人数过多,测验时间和经费又有限时,宜用选择题进行团体纸笔测验,而人数少,时间充裕,又有某些实验仪器和设备时,则可采用操作测验。
对于测验项目的确定,我国心理学家廖世承、陈鹤琴早在几十年前曾提出的几条原则现在仍可供参考:(1)使受测者容易明了测验方法。(2)使受测者在完成测验时不会因测验项目的形式不当而做错。(3)测验过程省时。(4)记分省时省力。(5)经济。
(三)命题的一般原则
1、内容方面。试题要符合测验的目的;
内容取样要有代表性;
题目间内容相互独立,互不牵连,对不同题目的回答不致相互影响。
2、文字方面。使用准确的当代语言,避免使用生僻的字句或词汇。语句要简明扼要,既要排除与答案无关的因素,又不能遗漏答题所依据的必要条件;
最好是一句话说明一个概念,尽量少使用双重否定句。
3、理解方面。题目内容不能超出受测团体的知识水平和理解能力;答案明确,不引起争议;题目格式不要被人误解。
4、社会敏感性方面。避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应使用。可是有些测验必须涉及这类社会敏感性问题,那么怎样鼓励被试作出真实的回答呢?菲力普列举了几条策略值得参考:①命题时假定被试具有某种行为,使他不得不在确实没有该行为时才否定,可避免否定答案过多的倾向。②命题时假定规范不一致。③指出该行为是常见的,虽然是违规的。
(四)编写和修订项目
制定项目的过程包括写出、编辑、预试和修改等一系列过程。在获得一个令人满意的项目之前,这些步骤是不断重复的。在这个过程中,编制者和有关方面的专家要对项目反复审查修订,改正意义不明确的词语,取消一些重复的和不适用的项目。然后将初步选定的项目汇集起来组成一个预备测验。
编写项目要注意以下几个问题:
1、项目的范围要与测验计划相一致。
2、项目的数量要比最后所需的数目多一倍或几倍,以备筛选和编制复本。
3、测验项目的取样应当对欲测量的心理品质具有代表性。
4、项目的难度应有一定的分布范围,必须符合测验目的的需要。如果是能力测验或学业成就测验,就应当包括各种不同难度的测验项目,以鉴别各种不同能力或不同知识水平的人员;如果是人格测验,就应当选编那些在不同方向的备选答案上都有一定人数分布的项目,以鉴别具有不同人格特征的人员。
5、项目的说明必须清楚,用语要力求精练简短、浅显明了。
四、项目的预测和分析
初步筛选出的项目虽然在内容和形式上符合要求,但是否具有适当的难度与鉴别作用,必须通过实践来检验,也就是要通过预测进行项目分析,为进一步筛选题目提供客观依据。
(一)预测
预测的目的在于获得被试对测验项目做何种反应的资料。它既能提供那些题目意义不清、容易引起误解等质的信息,又能提供测验项目优劣的量的指标。预测的目的一方面是了解受测者对测验的适应情况,借以发现测验编制本身的缺陷;另一方面则主要是对测验及题目进行统计分析,取得必要的数量指标,以便筛选题目、组成正式测验。
预测应注意以下几个问题:
1、预测对象应取自将来正式测验准备应用的群体。虽然人数不必太多,但要具有代表性。例如,对于一个学绩测验来说,进行预备测验的学生必须和测验所指定的被试属于同一个年级。并且具有相同的课程背景。取样时应注意其代表性,人数不必太多,亦不可过少。
2、预测的实施过程与情境应力求与将来正式测试时的情况相近似。
3、预测的时限可稍宽一些,最好使每个被试都能将项目做完,以搜集较充分的反应资料,使统计分析的结果更为可靠。
4、在预测过程中,应随时记录被试的反应情形,如在不同时限内一般被试所完成的题数、题意不清之处及其他有关问题。
(二)项目分析
预试完成后,可以根据预测结果进行题目分析。题目分析主要是确定题目的难度、区分度、备选答案的合适度等数量指标。根据分析结果,再行筛选题目,编制出符合要求的正式测验。
质的分析是从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析。量的分析是对预测结果进行统计分析,确定项目的难度、区分度、备选答案的适宜性等。
编制一套测验,只依据一次预测的结果所作的题目分析是不够的。
由于预测的被试样本可能会有取样误差,故由此得到的项目分析结果未必完全可靠;为了检验所选出的项目的性能是否真正符合要求,通常需再选取来自同一总体的另一样本再测一次,并根据其结果进行第二次项目分析,看两次分析结果是否一致。如果某个题目前后差距较大,说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫做复核。
五、合成测验
(一)项目的选择
在选择项目时,不但要考虑项目分析所提供的资料,还要考虑测验的目的、性质和功能。最好的项目,就是只测定所需要的特征,并能对该特征加以有效区分的难度合适的项目。
根据项目分析资料选出的项目,还要与测验计划再次对照,看看材料的内容以及所测量的行为目标是否与计划相符,必要时加以适当调整。此外项目的数量还必须适合于所限定的时间。
选择测验项目的指标有三:(1)测验的性质,即要选择那些能够测量所要测量的东西的项目。(2)项目的难度。选择多大难度的项目并无固定的标准,选拔性测验要求难度大些,考察性测验则要求难度不可太高,人格测验则不要求难度。(3)项目的区分度。一般来说,项目的区分度越高越好,对于选拔性测验尤为如此,但有时也可保留若干区分度不高的项目。这要视项目的重要性而定。
(二)项目的编排
在测验题目编写完成之后,需请有关专家进行检查,并根据测验目的、性质与功能来选择和编排测题。
在测验开头应该有一两个十分容易的项目,以使被试熟悉作答程序,解除紧张情绪,建立信心,进入测验情境。对项目的总的编排原则是由易到难,这样可以避免被试在难题上耽搁时间太多,而影响对后面问题的解答。在测验最后可有少数难度较大的项目,以测出被试的最高水平。
具体编排形式可以采用并列直进式,也可以采用混合螺旋式。(1)并列直进式——如韦克斯勒成人智力测验(WAIS)。将整个测验按测题材料的性质归为若干分测验,在同一个分测验中的测题,则依其难度由易到难排列。(2)混合螺旋式——如比西智力量表。将各种类型的测题依难度分成若干不同的层次,将同等难度水平中不同性质和类型的题目组合在一起,再依难度渐次排列。此种编排的优点是可使被试对各类测题循环作答,从而维持兴趣。
(三)编造复本
在实际工作中经常遇到要多次使用某个测验的情况。例如一个考察学生进步的成就测验,一般就需要先后做两次予以比较。这时,如果应用同一份测题,就难免有练习效应,不能完全反映出学习是否有进步。因此必须有等值的测验可以替换,这就需要编制测验复本。
复本的关键是等值。所谓等值就是要符合下列条件:
(1)复本测量的是同一种心理特质;
(2)复本测题的内容范围相同,但题目不应有重复;
(3)复本测验题型相同,题目的数量相等,并且有大体相同的难度和区分度结构。
(4)复本测验的分数分布(平均数和标准差)大致相同。
编制复本时可以先根据题目的难度将一定数量的测题按难度顺序排列:1、2、3、4、5、……如果分成两个等值的测验,可采用下列分法:
A本:1、4、5、8、9、12、13、16、17、20、……
B本:2、3、6、7、10、11、14、15、18、19、……
如果要分成三个等值的测验本,可用采下的分法:
A本:1、6、7、12、13、18、19、24、……
B本:2、5、8、11、14、17、20、23、……
C本:3、4、9、10、15、16、21、22、……
复本编好后,应该再试测一次,以判定各复本究竟是否等值。
六、测验使用的标准化
—套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差,就要控制无关因素对测验目的的影响,这个控制的过程,称作标准化。具体包括以下几方面:
为了使测量结果准确可靠,必须将测验的使用标准化,为此要注意以下几点:
(1)确保测验实施过程的规范性与统一性,包括测验指导语、测验时间、测验情境等。
(2)制定客观的评分标准与解释分数的常模。
(3)务必使测验的效度与信度达到一定的要求。
一个测验的好坏,取决于对该测验的标准化水平。所谓标准化是指测验的编制、施测、评分以及解释测验分数的程度是一致性。具体地说,测验标准化包括下列内容:
(一)施测过程
1、指导语
指导语一般包括两部分,一是向受测者说明测验的目的,以便解除受测者的顾虑;二是向受测者说明如何对测验项目反应。指导语必须事先拟好,印在测验项目的前面,并且力求清晰、简单、明了,不致引起误解。对受测者不熟悉的测题类型,应当有一至二个例题。
给被试的指导语属于测验刺激的一部分,它的内容通常包括对测验目的的说明和被试应该如何反应的指示(包括如何选择反应、记录反应以及时限等)。对于纸笔测验来说,这些指示一般印在测验的开始部分,也可印在另外一张纸上。要求简单明确,不引起误解。如果题目形式对被试是生疏的,还应该有一些例题。
指导语会直接影响被试的反应态度与方法。为了保证测验情境的一致,还要有对主试的指导语,主要是对测验细节作进一步解释以及其他一些有关事项,包括测验房间场地的安排(照明、桌椅、隔音、温度等),测验材料的分发,如何记时、记分,对被试的各种提问如何回答,以及在测验中途发生以外情况(如停电、有人迟到、生病、作弊等)应如何处理。由于主试的一言一行,甚至表情动作都会对被试产生影响,所以主试一定要严格遵守施测指导,不要任意发挥和解释。总的要求是,无论什么人在什么时候什么地点使用同一测验,都必须做同样的事,说同样的话。对主试的指导语与测验是分开的。
2、时限
确定测验的时限,要考虑施测条件和实际情况的限制,以及被试的特点,不过更重要的是考虑测量目标的要求。对于人格测验来说,反应速度是不重要的,可不必规定严格的时限,但是在测量能力和学绩成就时,速度是需要考虑的一个重要因素。
确定时限一般采用尝试法,即通过预测来决定。
(二)评分、记分
评分的客观性意味着两个或两个以上的评分者对同一份测验试卷的评定是一致的。只有当评分是客观的时候才能将分数的差异归于受测者本身的差异。但要作到完全客观(一致)的评分是较困难的。一般来说,不同评分者之间的一致性达到90%以上,便可认为评分是客观的。
客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。一般说来,自由反应的题目(如问答题、论文题等)评分者之间很难取得完全一致,而选择题的评分较为客观,因此有人将选择题组成的测验叫客观性测验。
为使评分尽可能客观,有三点要求:
1、及时而清楚地记录反应的情况,特别对口试和操作测验,这点尤为重要,必要时可以录音和录像。
2、要有一张标准答案或正确反应的表格,即记分键。选择题记分键包括每一道题的正确反应的号码或字母;问答题的记分键包括一系列正确的答案和允许的变化;论文题的记分键包括各种可接受答案的要点;人格测验不可能有明确而统一的答案,记分键上指明的是具有或缺少某种人格特征者的典型反应。
3、将被试的反应和记分键比较,对反应进行分类。对于选择题来说,这个程序是很容易的,但是评分者的判断可能是一个起作用的因素时,就需要对评分规则作详细的说明,评分者将每一个人的反应和评分说明书上所提供的样例相比较,然后按最接近的答案样例给分。
分数评出后还要进行合成计算,即将各题目分数合成分测验分数,再将分测验分数合成测验总分数。
准确无误是对记分的基本要求。
(三)分数解释
一个标准化的的测验,不仅指测验内容、施测过程和评分程序的标准化,而且指对测验结果的解释的标准化。如果对同一测验结果(分数)可做出不同的解释,那么测验便失去了客观性。
测验分数必须与某种参照系统比较,才能显示出它所代表的意义。多数心理测验是把个人所得的分数与代表一般人同类行为的分数相比较,以判别其所得分数的高低。此处的“代表一般人同类行为的分数”即为常模。
建立常模的方法是,在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理,得出一个具有代表性的分数分布,此即该测验的常模。
常模是根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。在这个量表上,被试可根据自己的测验分数找到自己在团体中所处的地位。
编制常模需要三步:(1)确定有关的比较团体。(2)获得该团体成员的测验分数。(3)把原始分数转换成为量表分数。
1、常模团体
是由具有某种共同特征的人所组成的一个群体或是该群体的一个样本。
常模选择的一般步骤:确定一般总体→确定目标总体→确定样本。
确定常模群体的注意事项:
(1)群体构成的界限必须明确。在确定常模团体时,必须清楚地说明所要测量的群体的性质和特征。
(2)常模团体必须是所测群体的一个代表性样本。
(3)取样的过程必须明确且有详尽的描述。取样即从目标人群中选择有代表性的样本。从统计学角度看,取样的方法有随机抽样和非随机抽样两种。前者是根据随机原则进行,而后者则没有随机性。所谓随机原则,就是从总体中取样时,所取个案不是人为地主观决定的,每个个案被抽取的机会均等。
具体地说,有下列几种抽样方法:
①简单随机抽样。按照随机表顺序选择被试构成样本,或者将抽样范围内的每个人或者每个抽样单位编号,再随机选择,可以避免由于标记、姓名、性别或其它社会赞许性偏见而造成抽样误差。在简单随机抽样中,每个人或抽样单位都有相同的机会作为常模中的一部分。
②系统抽样。有时在总体数目为N的情况下,若要选择K分之一的被试作为样本,则可以在抽样范围内选择每个第K个人来构成样本。
③分组抽样。有时总体数目较大,无法进行编号,而且群体又有多样性,这时可以先将群体进行分组,再在组内进行随机取样。
④分层抽样。在确定常模时,最常用的是分层抽样方法。它是先将目标总体按某种变量(如年龄)分成若干层次,再从各层次中随机抽取若干被试,最后把各层的被试组合成常模样本。分层抽样还可以分为两种方法:分层比例抽样和分层非比例抽样。
(4)样本大小要适当。通常在决定样本大小时,应注意:
①总体的数目。
总数数目小,只有几十个人,则需要100%的样本。
如果总体数目大,相应的样本也大,一般最低不小于30或100个。
全国性常模,一般应有2000-3000人为宜。
样本大小适当的关键是样本要有代表性。
②群体的性质。如果群体性质单一,则样本不必太大,即可反映群体性质;若群体性质复杂,则样本容量就应大一些。
③测量结果的精确度。抽样误差的大小与样本容量成反比,若要提高精确度,即是说减少抽样误差,就必须加大样本容量。
(5)常模团体必须是近时的。
(6)注意一般常模与特殊常模相结合。
制定常模的过程:(1)确定测验将用于哪一个群体。根据测验最基本的统计量,决定抽样误差的允许界限,在此基础上设计具体的抽样方法,并对该群体进行抽样,得到常模团体。(2)对常模团体进行施测,并获得团体成员的测验分数及分数分布。(3)确定常模分数类型,制作常模分数转换表,即常模量表,同时给出抽取常模团体的书面说明,以及常模分数的解释指南等。
2、几种主要的常模参照分数
常模的构成要素为:原始分数、导出分数、对常模团体的有关描述。从测验中直接获得的分数,称为原始分数。它是通过将被试的反应与标准答案相比较而获得的。但是原始分数本身并不具有多大意义,在实际应用中,需要配以可供比较的标准,将原始分数转换以得到有意义的、可供解释的分数。这种比较标准就是由原始分数的分布转换过来的具有参照点和单位的测验量表。导出分数就是在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数。这种按某种规则将原始分数转化为导出分数的过程称作为分数的转换。常用的导出分数有百分等级、标准分数、T分数等。
(1)发展常模
①发展顺序量表:发展顺序量表,就是对正常儿童样本的心理或行为能力的发展顺序进行观测,并制订出各种发展水平与年龄的对照表,这种对照表就是发展顺序量表,它可以提供给人们的是关于各年龄正常儿童所具有的能力或行为方式。它是最直观的发展常模,最早的范例是格塞尔发展顺序量表。格塞尔发展顺序量表是按月份显示儿童在运动水平、适应性、语言、社会性四方面大致的发展水平。他强调儿童发展的规律性、顺序性。具体如:4 周:能控制眼睛运动,去追随一个对象; 16周:能使头保持平衡; 28周:能用手抓握东西,并摆玩它; 40周:能控制躯干、坐立或爬行; 52周:能控制腿脚运动、站立或行走。
皮亚杰对守恒概念的研究。皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展,尤其注重某些特殊概念的形成,其中最著名的工作就是对“守恒”概念的研究。他发现,儿童不同时期出现不同的守恒概念: 5岁时出现质量守恒概念; 6岁时出现重量守恒概念; 7岁时出现容量守恒概念。
②智力年龄。比纳 - 西蒙智力测验最先使用了智力年龄的概念。这个量表实际上是一个智力发展的年龄量表。根据儿童所能完成的题目处在哪一年龄,就把这一年龄称为他的智力年龄,简称智龄(IA)。在吴天敏修订的比纳智力量表中,每个年龄有六个题目,所以每完成一个题目相当于智龄两个月(这些题目的难度是呈梯级增加的)。这样可以根据被试完成的题数确定其智龄。
③年级当量。在教育成就测验中,分数的解释通常也采用年级当量。即将被试的测验成绩与某一年级的学生的平均分数作比较,而说成相当于某一年级水平。年级常模的单位通常为10个月间隔。所以年级当量是5.0,便表示是五年级的初始水平,5.5则表示五年级中期的平均成绩。4~5的年级当量代表的是第4 年级中的第5 个月水平或说中间水平,而不是指4~5年级的平均水平;7~3代表的是7年级中的第3个月水平。例如,4—0(或4.0)表示四年级开始时的平均成绩,4—5(或4.5)表示学年中间的平均成绩。
(2)百分位常模
百分等级。指在常模样本中低于这个分数的人数百分比。当常模样本组的测验分数的分布偏离正态分布时,可以百分等级表作为测验的常模表。
百分点,也称百分位数。是计算处于某一百分比例的人对应的测验分数是多少。
四分位数、十分位数。
(3)标准分常模
标准分数是一种具有相等单位的量数,又称作Z分数,以Z表示。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。
标准分数的计算公式为:
T分数:平均数为50,标准差为10。
标准九分:以5为平均数,以2为标准差。
标准十分:平均数为5,标准差为1.5。
标准二十分:平均数为10,标准差为3。
(4)智商
比率智商。IQ=(MA/CA)×100。但是,用比率智商反映个体的智力发展,概念有缺陷:首先心理年龄(Mental Age,简称 MA)与实足年龄(Chronological Age ,简称CA)并不同步增长,所以比率智商不适合于年龄较大的被试 ;其次,不同年龄组儿童的比率智商分布的情况不一样,所以相同的比率智商在不同年龄就具有不同意义。
离差智商。离差智商是一种以年龄组为样本计算而得标准分数,并且转换成平均数为100、标准差为15的标准分数。 IQ=100+15×(X-M)/SD 其中:X为一被试的测验分数、M为相应年龄组常模样本测验的平均分、SD为相应年龄组常模样本测验的标准差。
商数
1.教育商数
教育商数(EQ)与智商类似,它是教育年龄(EA)与实际年龄(CA)之比。其公式如下:
EQ=教育年龄/实际年龄×100=EA/CA×100
所谓教育年龄是指某岁儿童所取得的平均教育成就。譬如,一个学生的教龄为10岁,就说明该儿童的教育成就与一般10岁儿童教育成就相等。不管年龄大小,只要测验上所得的分数与某年龄平均分数相等,则教龄便为多少。
教育年龄可以由年级当量间接得到。教育年龄与教育商数和智龄与智商的解释类似,都是表示发展的水平与速率的。但以教龄作单位,有时意义不明确。
2.成就商数
成就商数(AQ)是将一个学生的教育成就与他智力作比较,即教育年龄与智力年龄(MA)之比:
AQ=教龄/智龄×100=(教龄/实龄)/(智龄/实龄)×100=教育商数(EQ)/智力商数(IQ)×100
因为成就商数是将一个学生的教育成就或学业成就与同等智力学生作比较,所以它不仅可以用来评价学生的努力程度,也可以用来评价教师的教学效果与质量。
3、常模分数表示法
(1)转换表表示法。转化表又称常模表,是一种最简单、最基本而且最常用的呈现常模资料的方法。它由原始分数、相应的导出分数和对常模团体的有关具体描述3个要素构成。一个转换表显示出一个特定的标准化样组的原始分数与其相应的等值分数——百分位、标准分数、T 分数或者其他任何分数。利用转换表可以将被试的测验分数转换为与其对应的导出分数。
①简单转化表
简单转化表是将单项测验的原始分数转换为一种或几种导出分数,如表所示。
该表是文学院女新生ACT的合成分数(原始分数),百分等级和标准分数(T分数)的对照表。假若一个学生原始分数为27分,则所对应的百分等级为54,T分数为52,分数的意义与解释与本章第一节中的说明完全一致。
利用转化表解释分数时应注意:
(1)只能将分数与表中所描述的常模团体作比较,要和其他常模团体比较,则需要其他的常模表。
(2)在没有效度资料时,转化表只能将原始分数转换为另一种分数,而不能作任何推论,即使有效度资料,效标行为也只是从常模资料推论来的。
原始分数 | 百分等级 | 标准分数 |
32 31 30 29 28 27 26 25 24 23 22 21 20 | 99 96 89 78 67 54 42 31 21 13 6 1 1 | 70 66 62 59 55 52 48 44 41 39 34 30 26 |
②复杂的转化表
复杂的转化表是将包括几个分测验,或几种常模的原始分数与导出分数的对应关系呈现在一张转化表上,如表所示。
分数 | 男 | 38 37 36 35 | 34 33 32 31 30 | 29 28 27 26 25 | 24 23 22 21 20 |
女 | 38 37 36 35 | 34 33 32 31 30 | 29 28 27 26 25 | 24 23 22 21 20 | |
谨慎性 | 男 | 99 98 | 97 96 94 91 88 | 84 79 74 68 62 | 56 50 44 38 33 |
女 | 99 98 | 97 96 94 91 87 | 82 77 72 67 61 | 55 49 43 37 32 | |
独创性 | 男 | 99 98 97 | 95 92 89 85 81 | 76 70 64 58 51 | 44 36 34 25 20 |
女 | 99 98 97 | 96 94 92 89 86 | 82 77 71 65 58 | 51 44 37 31 25 | |
人际关系 | 男 | 99 | 98 97 95 93 90 | 86 82 77 71 65 | 58 51 44 38 33 |
女 | 99 98 97 96 | 95 93 91 89 86 | 82 77 72 66 59 | 52 45 30 33 27 | |
活力 | 男 | 99 98 | 97 95 93 90 86 | 82 77 72 66 59 | 52 46 40 34 29 |
女 | 99 | 98 97 95 92 89 | 85 80 75 69 62 | 56 50 44 38 32 | |
分数 | 男 | 19 18 17 16 15 | 14 13 12 11 10 | 9 8 7 6 | |
女 | 19 18 17 16 15 | 14 13 12 11 10 | 9 8 7 6 | ||
谨慎性 | 男 | 29 25 21 18 15 | 12 10 8 6 5 | 4 3 2 1 | |
女 | 28 24 20 17 14 | 11 9 7 6 5 | 4 3 2 1 | ||
独创性 | 男 | 15 11 8 6 4 | 3 2 2 1 | ||
女 | 20 17 14 12 10 | 8 6 4 3 2 | 1 | ||
人际关系 | 男 | 28 23 19 15 12 | 9 7 5 4 3 | 2 1 | |
女 | 22 18 15 12 9 | 7 5 4 3 2 | 2 1 | ||
活力 | 男 | 24 18 15 12 9 | 7 5 4 3 2 | 1 | |
女 | 27 22 18 15 12 | 10 8 6 4 3 | 3 2 1 | ||
(2)剖面图表示法
剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相应的位置。

七、搜集信度、效度资料
(一)信度
信度指的是测验的可靠性,即用同一测验多次测量同一团体,所得测验结果之间具有一致性。信度是衡量测验质量的最基本的指标,因而测验编好后首先鉴定该测验的信度。
(二)效度
效度指的是测验的有效性,即一个测验在多大程度上能够测得它所要测得的东西。如果一个测验的效度很低,那么说明该测验所测得的东西不是它所要测的东西。测验编好后,必须检验该测验的效度。
八、编写测验手册
任何标准化的心理测验都必须提供给用户相应的说明书,即测验手册。
测验手册的内容有:
(1)测验的名称、作者、发行单位。
(2)测验的目的和功用。
(3)测验编制的理论背景和选择题目的依据。
(4)测验的实施方法、时限及注意事项。
(5)测验的标准答案和计分方法。
(6)常模资料。
(7)测验的信度资料和效度资料。
良好的测验应符合以下一些要求:
1、试题的类型应与测量的目的相适应。
2、所拟定试题应具有代表性。
3、试题要有适宜的难度和区分度。
4、试题的表述要明晰、准确,不会引起被试者对试题的误解。
5、测验的结果具有可靠性和有效性。
6、测验要易于实施,易于评分,便于统计检验,在人力、物力和时间方面,符合经济性原则。

