第二节 人格测评
人格测评(personality assessment)就是创制和应用各种系统的技术来搜集人格的信息,对人格的各个方面进行考察,从而对个体的行为做出预测和控制。测评的方面可能包括:动机(如成就动机)、特质(如攻击性、自尊)、病态人格(如抑郁症)、人格适应(如应对焦虑的方式)和人格发展(如成长模式)等。人格测评有助于获得精确的、有意义的个体信息,应用范围非常广泛。除了人格心理学者,临床心理学者、精神病学者、人事部门、社会工作及就业咨询等领域的人士也都积极投身于人格测评工作。此外,人类学者,犯罪学者以及社会学者也或多或少地参考人格测评的结果。
本节将分析不同的测验资料类型,探讨人格测评的评价问题、理论问题以及应用中应注意的一些问题。
一、测验资料的类型
测验资料大体可以分为四类:自我报告资料(self-report data,简称S-data)、观察者报告资料(observer-report data,简称O-data)、实验资料(test data,简称Tdata)和生活史资料(life-outcome data,简称L-data),简称LOTS(Block,1993)。下面我们将考察不同的资料类型及各自的优缺点。
(一)自我报告资料
自我报告资料(S-data)指通过问卷或访谈等程序获得的由个体自己表达的信息。它是人格心理学研究中最常用的资料。获取S-data的途径包括:(1)访谈;(2)由个体定期记录和汇报所发生的事件;(3)人格问卷(questionnaire)。其中,人格问卷是最常用的方法。
虽然个体在自我报告时并不总是愿意提供准确的信息,但S-data依然在人格研究中占有很大的比重,因为它有着其他资料无法比拟的优势。第一,人对有关自己的信息了解最多最清楚,其中有很多是其他方法难以获取的。第二,S-data可以有多种形式。可以是非结构化(unstructured)的开放式问卷,也可以是结构化(structured)的问卷。开放式问卷如《20项陈述测验》(Twenty Statements Test,TST),包括20句以“我……”为开头的句子,要求受测者将其补全。受测者也许会写:我是一个家庭主妇;我48岁;我很害羞,等等;其写作顺序可以反映这一社会角色在她心中的重要性(Larsen & Buss,2002,p.27)。结构式问卷比开放式问卷使用得更多,它的反应选项是给定的(包括“是”与“否”的迫选题),常见的形式还有多点评定,如下面的七点评定,1分代表不适合“我”,7分代表最适合“我”:

S-data的局限是:受试者必须愿意并且能够回答所提出的问题。人并非总是诚实的,特别是面对敏感问题(例如与性有关的问题)时。有些人缺乏对自身的认识,因此也可能提供不正确的信息,尽管他并非有意识地撒谎。所以,人格心理学家也常会采用无需受试者的诚实和洞察力就能获得资料的方法,如观察者报告。
(二)观察者报告资料
观察者报告资料(O-data)是指让观察者对个体做出的评定。在使用O-data时,如何选择观察者是首要问题。一般来说有两种观察者:一是专业的人格评鉴专家,他们事前并不认识被观察者。二是与被观察者有亲密关系的人。两种观察者所得到的资料各有利弊。如果采用后者,不仅可以更好地介入被观察者的生活,获得更接近自然状态的资料,还可以获得被观察者的多重社会人格(multiple social personality),即他在不同的人面前扮演的不同角色,展现出人格的不同侧面。例如,人对自己的朋友会很友好,而对敌人很残忍。在陌生人面前,某些人格侧面很难被表现。然而,如果观察者与被观察者有亲密关系,可能会受到偏见的影响。一位母亲可能会无视自己孩子的负面印象,而强调其正面印象。更重要的是,观察者自身的一些人格特质会降低观察结果的精确性。比如,观察者对某些事物是否存在定势与刻板印象;他是否能够意识到并克服定势与刻板印象的影响。这时,让受过严格专业训练的人格评鉴专家进行观察,收集到的资料更为可靠。
观察的类型依据不同的标准可以分为自然观察(naturalistic observation)与人为情境观察(artificial observation),即时观察(immediate observation)与回溯观察(retrospective observation),整体单元观察(molar units observation)与分子单元观察(molecular units observation)。自然观察是指发生在日常生活情境中的未经研究者操纵的观察,而人为情境观察则发生在非日常生活情境下,比如实验室中的观察。前者的优点是能够得到个体在真实状态下的资料,但却失去了对观察的控制,可能无法观察到希望分析的行为;后者恰好相反,可以对预期行为进行控制,但可能与现实生活很有差距。即时观察是指对观察到的现象随时进行记录,回溯观察是指对所观测的信息通过事后回忆的方式进行记录,记录可以在每天观察阶段结束时,也可以在整个观察结束后的很长一段时间内进行。回溯观察的优点是,可以对观察到的更大的行为样本进行评价,缺点是对过去行为的评价会受到记忆与当前行为的影响。整体单元观察与分子单元观察是从选择观察单元的大小来划分的。前者包括整体性的特质,如智力、情绪稳定性等。后者则包括个体的某种行为,如一个人的行走速度,他是否一次上两级台阶等细节。观察单元大小的选择,视具体的研究目标而定。比如,假若要预测一个人在团队中的融洽能力,考察整体单元(友善性)显然要比分子单元(微笑的次数)更有价值。
O-data可以弥补S-data的一些不足。第一,观察者可以提供一些从其他途径无法获得的信息。例如,观察者可以报告一个人给其他人的印象以及他的社会声望、在社会阶层中的相对地位等。尽管这些资料也可以通过自我报告获得,但是从观察者角度做出的判断更客观。第二,O-data可以通过多个观察者同时获得,多个人提供的信息可以更好地避免偏见的影响。而S-data只能由一个人提供。
(三)实验资料
实验资料(T-data)指来自实验程序的资料,包括对生理反应和行为直接测量的得分。T-data是一个非常有价值,并且无法替代的信息来源。在T-data中,可以设计引发在自然观察下很难得到的特定行为,可以使研究者控制环境因素,消除额外的影响源。最重要的是,可以使研究者检验特定的假设,直接控制那些假定存在因果关系的变量。其缺点是参与者会揣测实验目的,然后改变他们的行为和反应,从而产生不同的印象。再者,很难检验参与者是否以与实验者同样的态度对待实验情境。例如,一项研究“服从”的实验,在告知参与者时,故意掩盖其真实目的,把实验目的描述为测试智商。这就会使参与者产生焦虑,影响随后的表现(Larsen & Buss,2002,p.34)。如果想更多了解实验资料的特点,大家还可以回顾一下前一节探讨的实验研究。
(四)生活史资料
生活史资料(L-data)指在个人一生中能够得到公众检验的事件、活动以及结果等信息,包括个人的年龄、教育、职业及收入,以及过去的成功或犯罪史等。例如,人格心理学家会考察个体所参加聚会的信息;在过去的几年中收到多少张罚单;在事业上的进展,是提升还是降职;创作的数量,如出版了多少本著作。这些都是个人一生中的重要事件,可以提供其他资料所没有提供的重要信息。
人格心理学家常用S-data和O-data来预测L-data。例如,孩子8~10岁时,通过对孩子的母亲进行访谈,研究者编制了两份量表以考察“脾气暴躁”这一特质。一份考察每次发脾气的严重性,记录行为反应(如撕咬、踢打、扔东西等)和言语表达(如发誓、赌咒、大叫等),另一份则考察发脾气的频次。然后研究者将两份量表合而为一,测量脾气暴躁。由于这是基于母亲的观察得到的,所以可代表O-data。等这些孩子们到了30~40岁时,研究者收集他们的生活史资料,如教育、工作、婚姻以及亲子关系。然后分析母亲多年前的O-data与后来被试的L-data之间的关系,考察孩童时期对“脾气暴躁”的测量是否对数十年后的生活有显著的预测作用(Larsen & Buss,2002,pp.40-41)。研究结果证实这种预测作用非常显著。对于男性来说,早期的坏脾气与成年后的许多负面结果相联系。小时候被评定为坏脾气的人,在军队中的等级相当低。他们喜欢飘忽不定的工作生活,失业的次数更多。女性的结果表现出类似的模式,但也有一些不同之处。与男性不同,早期被评定为坏脾气的女性在工作上并没有负面效应,但这些女性更多地选择社会地位显著低于自己的男性结婚。
总之,L-data可以提供人格在现实生活中的重要信息。早期对人格特质的测量结果与数十年后的生活状况有关。就此意义而言,生活状况在一定程度上体现了人格。然而,我们应考虑到生活状况是由很多因素造成的,人格特质只是诸多影响因素的一种。
二、测评的评价
现在的报纸、杂志,甚至一些广播电视节目上充斥着大量的人格测验。但是严格地说,这些测验大部分都缺少专业性,并不能正确描述人格。那么,我们如何来判断一个人格测验好还是不好呢?这就涉及对人格测评的评价问题。一般而言,评价人格测验的标准主要有两个:信度和效度。在人格心理学研究中,当人格测评完成后,就应该接受科学的信效度检验,以此来确定测评的可靠性和有效性。
(一)信度
信度(reliability)是指测验的可靠性和一致性。例如,你在星期二测了自己的身高,星期五重测一次,短短几天之内身高不会发生变化。如果两次的测验结果是相同的,就说明你所用的测量工具是可靠的,这就是信度问题。对于人格测验,信度是指多次对同一个人施测某一测验,我们能在多大程度上指望得到同样的结果。换言之,信度指一项测验在时间上的稳定性。测验信度的高低,通常用相关系数来表示。信度指标主要有:(1)内在信度(internal reliability)是指测验方法本身的一致性。如果测验方法不是标准化的,就会得到歪曲的数据结果。例如,一个IQ测验中一半的题目过于简单,几乎每个人都会做,另一半却难度太大,几乎每个人都不会做。那么最后每个人在整个测验中的得分都差不多是总分的一半。因此,这个IQ测验是不可靠的。内在信度的指标有分半信度和复本信度。分半信度(split half reliability)是指将受测者在测验的一半题目上的得分与另一半题目上的得分求相关所得到的相关系数。如果测验题目足够多,就可以采用分半信度衡量一致性。复本信度(alternate-forms reliability)是指一种测验分数与形式相同但题目不同的测验复本分数之间的相关系数。在需要进行重复测量的研究设计中,为避免受测者的学习效应,一个测验往往会准备多个复本,但是要在测验内容、题目的形式、数量和难易程度上相匹配,使之相当。(2)外在信度(external reliability)是指同一测验在一段时间内重复测量的一致性。当在相似的条件下对同一组被试进行测量时,应得到近似的分数。重测信度(test-retest reliability)就是指测验的跨时间的一致性。用同一测验对同一个(组)被试的前后两次测验分数的相关系数来表示。值得注意的是,两次施测的时间间隔不宜过长,也不宜过短。对于人格测验,一般认为最少不低于一个星期,最多不超过三个月是适宜的间隔。(3)评分者信度(inter-judge reliability),是指由两个或两个以上的评分者对同一个(组)被试的反应进行独立的评分,然后求出不同评分者所给分数的相关系数。为什么需要评分者信度呢?评分者有时也是误差的来源之一,比如临床测评和投射测验,都要依赖评分者的判断,这种主观的判断可能使评分很不一致,因此要对评分者这个误差因素加以考虑。为了减少这个误差,提高评分者信度,就需要对评分者做系统的培训,并保证测验程序的标准化。
(二)效度
效度(validity)是指一项测验实际能测出其所要测量的心理特质的程度,也就是测验的准确性。主要包括:(1)内容效度(content validity)是指测验项目的内容与所要测量的内容的符合程度。例如我们要编制一个人对他人信任度的测验,那么就要选择那些能代表信任特质的项目,而不是选一些与信任无关的项目。表面效度(face validity)是指一个测验在表面上看起来是有效的,纯粹是日常经验的。就是说受测者一眼就能看出你要测什么。在人格测评中,往往要尽量减少测验的表面效度,以防止被试的社会称许性反应。(2)效标效度(criterion validity)是指测验分数与外在效标之间的符合程度。外在效标是测验所计划测量的某些行为。效标效度有两种:同时效度和预测效度。同时效度(concurrent validity)是指测量同样变量的新、旧测验之间应存在较高相关。这个旧测验是相对于新测验建立的时间而言的,旧测验往往是领域内较权威、较完善的测验。预测效度(predictive validity)是指测验能预测未来某种效标的能力。(3)结构效度(construct validity)是指测验的结果能否证实或解释某一理论所提出的假设。所谓结构,可以是心理学中的任何一个概念,如自尊。若一个自尊量表测到了自尊理论中所包含的内容,同时又与其他概念无关,那么就能说这一量表的结构效度较好。所以它在概念上能够涵盖前面的内容效度和预测效度。(4)生态学效度(ecological validity)是指测验或测量手段在多大程度上代表了自然状态下发生的行为。在实验条件下,严格控制的实验情境往往会与自然情境相去甚远,实验中的行为具有一定的人为性,丢失了自然自发行为的重要信息。因此要考察实验结果的生态学效度。
鉴于人格的多样性、复杂性,并没有一个统一标准来判断各种测验孰优孰劣。好比一个人知道自己的手表可能走不准,为了获得相对准确的时间,最好的办法是和第二个人进行比较。但他若想得到更精确的时间,就需要更多的参考。虽然也许大家的手表都不准,但广泛的一致性至少可以最大限度地接近真实的时间。因此,人格研究者强调人格测评的信度,要求不同的观测者采用不同的方法研究同一对象。这样做,就是为了最大限度地反映真实人格。但是,信度只是好测验的必要而非充分条件,也就是说,信度高并不一定就是好测验。要想确定测验的好坏,还得进一步考察测验的效度。
三、测评的理论问题
在人格测评过程中,人格研究者一般会从以下四个维度来考虑研究的策略。
(一)特殊规律研究法与一般规律研究法
人格心理学的创始人Allport认为,没有两个人拥有完全相同的特质。基于此观点,他提出了唯一特质(unique traits)的概念,提倡特殊规律研究法(idiographic approach),反对用完全相同的特质去测量每一个人,主张要重视个体的主观感受和直觉。Carlson(1971)提出了他的人格学(personology)观点,提倡在人的社会及生理背景下开展研究,强调考察个体的个性(individuality)和奋斗经历。个体之间的差异才是人格领域要探索的主要现象,这是特殊规律研究取向者的基本信念。的确,形形色色的人构成了我们的社会,个体间存在差异才使我们的世界异彩纷呈。但是应该看到,仅强调个体的主观感受,与心理学研究的科学性要求极不协调。再者,特殊规律研究需要大批研究者开展深度研究,处理大量数据,代价高昂。共同规律研究法(nomothetic approach)关注整个社会背景下的个体之间的共同性,将个体视为人口总体中的一些例证。相对来说,采取共同规律研究法,可以同时施测大量被试,所需人力和时间都较少。然而,把被试群体看作一个整体,采用数理统计方法剔除个体间差异,势必导致结果的过度概括化,因而可能歪曲对个体的理解。如人人都有尽责性特质,但有人做任何事都认真负责,有人却仅对特定的工作才如此。假如共同规律研究发现,尽责性与神经质呈负相关,但特殊规律研究却不一定支持此结论,因为在有些个体身上,尽责性与神经质呈正相关。
(二)原型与特质
人们通常会根据相对稳定的特点描述自己,要么把自己归为某一类人,要么确认自己具有某些特质。研究者也可能会有同样的分歧:是采用原型来分类,还是借助特质进行描述?原型(prototype)是指一种可以再现认知范畴的典型代表结构。比如,古希腊时代,就将人划分为多血质、抑郁质、胆汁质、粘液质四种类型。最初,研究者用刻板(stereotype)表述“原型”的意思。但刻板隐含有“死板”及“心存偏见”的意思,后来才被更为中性的词“原型”所替代。用原型来划分人格的类型常常是边界不清的,因为它不是靠逻辑进行组织,而是通过最典型、最明确的例子来对类型进行定义。不过,原型能提供生动的细节信息,比较具体、易于把握,而且处于人们日常经验的中心位置,使人容易清晰地了解。例如,麻雀是比企鹅更能代表鸟类的原型。特质(trait)就是连续的人格维度,如外向性。特质论者根据人们在某一特质上所具有的程度来对不同个体进行区分,每个人在该维度上都能得到自己的分数(分数高则很外向,反之则内向)。特质的描述是抽象的,也许你可以测出自己是个外向的人,却不能说清究竟怎样才算外向。因此,尽管原型说早已脱离主流,仍有研究者(Hampson,et al.,1986)主张,最好将特质与原型结合起来描述人格(图2-5)。可以认为具有健谈、嗓门大、易开心、活力充沛等特点的人(原型)就是外向的人。

图2-5 特质与原型结合图
(三)外显行为与内在过程
行为固然能在某种程度上反映人格,但人格的时间维度也不容忽视。人格可能只在现在起作用,然而,“过去”通过当前的结构和记忆影响着“现在”。“未来”通过期望和目标也影响着“现在”。因此人格不仅包含结构,还包含过程。要理解人格,是测量外显行为好,还是测量内在过程好?研究者各持己见。有的研究者支持测量外显行为,如儿童的依赖与独立可以通过对以下行为表现进行观测(Moskowitz & Schwarz,1982)。依赖的儿童会表现为:寻求帮助,希望得到认可,要人监护,他人的触摸,与他人靠得很近。而独立的儿童则会:对他人身体的侵犯,语言命令,暗示,威胁,在游戏中给他人分配角色。有的研究者相信测量内在过程更能帮助我们理解人格。有一个实验以大学生为被试,让他们每晚就27对形容词(例如热情—不热情,有价值的—无用的等)对自己白天的表现进行评定,持续进行一个月。然后研究者计算每天其自尊变化的程度,得出了与设想一致的结果,自尊变化程度大的人更容易抑郁(Butler,et al.,1994)。
(四)实在论与建构论
实在论(realism)者致力于用身体状态解释心理现象,即寻找影响人格的生理因素,认为人格可以被还原成脑结构、内分泌等生理现象。建构论(constructivism)者认为,人格理论所涉及的概念,是由它们在日常生活中的有用性而被人建构的:人格的概念是被社会创造的。常用的概念就是研究对象,常谈论的概念也就是人格。那么,人格究竟是由真实的身体反应组成,还是由我们日常生活中所使用的与人格有关的语言构成?目前尚无定论。但有一点毫无疑问,生理反应会影响人格,人格也会反过来影响生理。究竟采取哪种策略,研究者要进行宽泛性(bandwidth,带宽)—精确性(fidelity,逼真度)权衡。宽泛性—精确性权衡,指在理论(或测量)所覆盖的行为范围(宽泛性)与理论(或测量)可预测行为的具体性(精确性)之间做取舍。这本来是一对无线电学概念。例如,一台收音机,收到的台太多,自然无法保证每个台都清晰。所以无所不包的理论(宽泛性很好)常常不够详细,对具体工作的预测力弱,即精确性差。而讲究细节的人格理论(精确性高)却只能解释有限范围的人格现象。带宽和精确度这两个方面在做研究时,有时很难兼顾。究竟如何取舍,就取决于具体的研究对象和研究目的。
四、应用人格测评应注意的问题
随着心理学在中国的发展和广泛应用,社会上出现很多人格测评被误用、滥用的现象。为了更科学规范地使用人格测评,我们在应用中要注意以下这些问题。
(一)偏见
测评者也是带有主观性的人,因此,每个施测者的主观偏见不可避免地影响施测过程和对结果的汇总和解释。在收集数据阶段,如果采用他人评定技术,就会受到宽厚效应(leniency effect)的影响,即总是给他人以正面的评价,对每个评定对象都打高分。如学生对老师的评定,以及朋友之间的评定;有时陌生人之间为了表示友好也会显得不那么挑剔。晕轮效应(halo effect)是主观偏见的另一表现,它是指由于对人的某一品质或特点有清晰、深刻、突出的印象,从而掩盖了这个人的其他品质和特点,形成夸大的社会印象。晕轮效应可能导致评定者给出一贯偏高或偏低的评定。测评者的主观偏见还受到内隐人格理论(implicit personality theory)的影响。内隐人格理论是普通人对人格特质间关系的假设,当人们描述他人时,这种假设会影响判断。比如,若告知一个人,新同事是个热情的人,他就会联想其正面的特质,诸如优秀、友好、聪明等等。即使用仪器记录的数据,研究者在解释数据时,仍无法避免自己主观偏见对数据的影响。不过,主观偏见虽无法彻底根除,却可以控制。如采用多种技术,或增加评定者人数,均可起到一定的控制效果。例如在进行人格评定时,除了进行主题统觉测验,还采用生理测量数据。
(二)伦理问题
在测评过程中,还应该考虑到研究的伦理道德问题。首先应尽量保护个体的隐私权不受侵犯。在个体接受测验前,应对测验意图和具体的施测程序做详尽的表述,当事人同意后,才能进行施测。测评的结果要妥善处理,应告知当事人将会如何应用测评结果。要及时销毁过时的数据;而值得保存的数据,则要为当事人保密。测评结果不能用作歧视的证据,更不应给当事人贴标签。美国心理学会(APA)制订了一系列道德准则,用以规范人格测评的各个环节,使其符合道德、法律的要求。中国心理学会也有《心理测验管理条例》。
(三)文化问题
文化问题对中国的人格心理学工作者来说这是一个非常重要的问题。人格测评中的文化问题涉及两方面内容(Carver & Scheier,1996,pp.46-47)。第一,某种人格测评中的心理结构是否具有文化差异性。人格测评所涉及的内容往往既有跨文化的共同性,也有跨文化的差异性。因此,将在某种特定文化背景下形成的测评工具运用到不同文化背景中的人身上时,就要考虑文化的问题。例如,西方人与东方人的自尊在结构和内容上可能有共同性,也可能同时存在很大差异。第二,不同文化下的个体对人格测评中的项目理解是否一样。如果理解不同,那么不同文化下被试的反应含义就不一样。因此,不能简单地将西方的测评工具翻译成中文就直接使用。
