品质数据又称为定性数据,包括分类数据和顺序数据,通常用文字表示以说明调查对象的品质特征,但是其调查结果是用数值表现的。品质数据的统计推断就是在汇总起来的频数的基础上,进一步分析不同类别的变量之间的关联。
例如,泰坦尼克号事件中,根据记载船上共有2208人, 如果按照年龄划分,成年人2099人,儿童109人。事故发生后,约2/3的人丧生,获救的718名幸存者里,成年人661人,儿童57人。我们想研究死亡与年龄是否有关联,这时年龄分类情况就是一个品质数据,调查结果用数值来表示,数字“1”和“2”分别代表 “成年人”和“儿童”两个类别,汇总得到的数据结果“661”,“57”就是频数。
那如果所研究的现象不是品质数据呢?当然也可以,这个我们在前面也已经讨论过,可以将数值型数据转换成品质数据,灵活运用。例如,“学生的成绩”是一个数值型数据,想要研究成绩情况,可以按照一定的标准,将成绩划分为“优秀”“良好”“不合格”三个档,依次去统计频数。
拟合优度检验


拟合优度是检验一个分类变量,依据总体分布情况,计算出品质变量中各类别的期望频数,与分布的观察频数进行对比,判断它们之间是否有显著差异,从而达到对分类变量进行分析的目的。
列联分析
当我们研究的问题不止一个分类变量,而涉及两个分类变量,想要知道他们之间是否有联系时,就可以选择列联分析,其分析过程可以通过列联表的方式来展现故而得名,此外也称作独立性检验。
1.列联表
列联表,是将两个或两个以上的分类变量进行交叉分类的频数分布表,有多种形式,通常将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,这样每一个具体的列联表称为R*C列联表。
2.独立性检验
独立性检验就是利用卡方分布分析列联表中行变量和列变量是否相互独立。
3.列联表中的相关测量
前面我们知道了可以利用卡方分布对两个分类变量之间相关性进行独立性检验,如果结论是相互独立,说明这两变量之间没有联系;反之则认为它们之间存在联系,至于这份联系表示两个分类变量的相关程度有多大则需进一步讨论。
我们主要用相关系数来测定两个变量之间的相关程度。前面已知列联表中的行变量、列变量通常是类别变量,数据是品质数据,用以表示研究对象的不同品质类别,因此可以把分类数据之间的相关称为品质相关。

