第三节 评价结果统计与分析
一、集中量数
集中量数描述一组数据的中心位置和集中趋势。常用的集中量数主要有算术平均数、中数、众数等。其中用得最多的是算术平均数。
算术平均数简称平均数,是所有数据的和除以数据的个数所得到的商。平均数是非常重要的统计量,它是一个接近数据的“真值”的值。
二、差异量数
差异量数描述评价结果的分散程度和离散程度。集中量数必须和差异量数相结合才能反映一组数据的全貌。例如下面两组数据的平均数都是70.9:94、86、82、78、72、65、64、59、58、51;91、85、82、75、71、65、61、60、60、59。但是第一组中最大数与最小数的差是43,而第二组中最大数与最小数的差是32。这说明第一组数据之间的差异较大,而第二组数据之间的差异比较小。为了正确表达一组数据的差异情况,就需要差异量数。常用的差异量数主要有方差、标准差、差异系数(S/M%,相对差异量数)等。
1、方差
2、标准差
3、差异系数
三、试卷试题质量的分析判断
1、难度
难度是反映试卷、试题难易程度的指标。难度值是用平均数来计算的。
试卷的难度值P=全体考生的平均分/试卷的满分
试题的难度值P=该试题全体考生的平均分/该试题的满分
试题的难度值P=该试题回答正确的人数/考生总数
难度的值域在O—1之间,难度值P接近0时表明题目很难,很少有人能够回答正确;而难度值P接近1时则表明题目非常容易,几乎所有人都能回答出来。
难度值的高低与试题的区分力之间有着紧密的关系,当P=0或P=1时,试题没有区分力,而P=0.5时,试题的区分力可以达到最大。
一般常模参照性测验的难度值P应该控制在0.3--0.7之间,而标准参照性测验的难度值P应根据达标率确定,一般应达0.9左右。
2、区分度
区分度是指试题能否很好地将受测者的水平区分开来的度量指标,亦称鉴别指数D。区分度高的试题一般会使实际水平高、能力强者比实际水平低、能力弱者的得分高。可以用极端分组法求得区分度。先将学生成绩排序,前27%的为高分组,后27%的为低分组,算出高、低分组对某试题所得的平均分。如高分组、低分组在第i题上的答对率分别为PH、PL,则该题的区分度
D=PH﹣PL
试题区分度的取值范围在﹣1至1之间。最大值为1,说明高分组在该题上全部通过,低分组全部失败;最小值为﹣1,说明低分组在该题上全部通过,而高分组全部失败。D=0,说明高分组与低分组通过的人数相等。测验的重要作用之一是为了鉴别学生的相对水平,因而区分度直接影响到试题的质量,对常模参照性测验而言,这一点尤为重要。对试题质量的具体评价是:D﹥0. 40,优秀;D=0.30—0.40,良好;D=0. 20—0. 29,合格;D=O—0. 19,较差;D﹤0,极差。对良好以下的试题,应结合测验目的作适当的修改,以提高区分度。
3、信度
信度是反映试卷可靠性的指标。通常信度是通过判断先后几次考试结果的一致性,或将试卷拆成对等两半后两个半张试卷之间的一致性来加以判断。判断的方法也是计算先后几次考试之间的相关系数,或对等两半试卷之间的相关系数,用相关系数来表示它们之间的一致性。所以信度包括再测信度、复本信度、分半信度等常见类型。
用一张试卷测验两次,两次成绩间的相关系数就是再测信度;而A、B卷之间的相关系数是复本信度;两个对等半卷之间的相关系数则是分半信度。
信度的值域在O—1之间。具有较高信度的试卷,其信度值应达到0.9以上。
4、效度
效度是反映一次测验是否真正测出了要测内容的指标。效度值能够反映测验成绩的有效与否,即测验是否反映了考生的真实情况。一般按照不同目的举行的测验,其效度也会不同。效度的值域在1—﹣1之间。当效度值等于1时,考试完全反映了考生的真实情况;当效度值大于0而小于1时,考试仅部分反映考生的真实情况;当效度值等于0时,表明考试与考核内容无关,属于无效考试;而当效度值小于0时,表明考试结果与考核内容相反。

