1
社会统计学
1.5.2.4 3.2.4 众数、中位数和算术平均值的比较
3.2.4 众数、中位数和算术平均值的比较

(1)众数、中位数和和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。 因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:如果数据的分布是对称的,众数(Mo)、中位数(Me)和平均数( )必定相等,即Mo =Me ;如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为:x <Me <Mo;如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,因此Mo<Me。 上述关系如图3.8 所示。

(2)众数、中位数和平均数的特点与应用场合

掌握众数、中位数和平均数的特点,有助于在实际应用中选择合理的测度值来描述数据的集中趋势。

这3 个集中趋势特征值设计的目的是共同的,都是希望通过一个数值来描述数据的整体特征,以便简化资料。 一般来说,众数适用于所有的变量,中位数适用于定序以上层次变量,而算术平均值适用于尺度变量。 但是,对于测量层次一定的变量应选择代表性最好的特征值。

图3.8 不同分布的众数、中位数和平均数

对于尺度变量,有众数、中位数和算术平均值3 个集中趋势量可供使用。 但因为众数和中位数都是用变量的一个值来概括全部数据,所以其代表性较差;而求算术平均值时所有的数据都参与了计算,所以算术平均值是概括性最好、代表性最强的集中趋势量。而且,由于尺度变量大多取值很多,有时可能呈现多峰分布,因此一般不用众数来描述,也很少用中位数来描述。

对于定序变量,有众数和中位数两个集中趋势量可供使用,由于中位数体现了数据能够比较大小的功能,因此一般情况下,认为中位数的代表性要好于众数。 而定类变量只能使用众数来描述。