***列联表(contingency table)***
1.由两个以上的变量交叉分类的频数分布表;
2.行变量的类别用 r 表示, ri 表示第 i 个类别;
3.列变量的类别用 c 表示, cj 表示第 j 个类别;
4.每种组合的观察频数用 fij 表示;
5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表;
6.一个 r 行 c 列的列联表称为 r × c 列联表。
***列联表的结构(r × c联表的一般表示)***

独立性检验就是分析列联表中行变量和列变量是否相互独立。在下例中,就是检验各个地区和原料质量之间是否存在依赖关系。
【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表9-2所示,要求检验各个地区和原料质量之间是否存在依赖关系? (α=0.05)
表9-2:

解:H0:地区和原料等级之间是独立的(不存在依赖关系)
H1:地区和原料等级之间不独立 (存在依赖关系)
这里分析的关键是获得期望值。
在第一行,甲地区的合计为140,用140/500作为甲地区原料比例的估计值。在第一列,一级原料的合计为162,用162/500作为一级原料比例的估计值。如果地区和原料等级之间是独立的,则可以用下面的公式估计第一个单元(甲地区,一级)中的期望比例。
令:A=样本单位来自甲地区的事件
B=样本单位属于一级原料的事件
根据独立性的概率乘法公式,有
P(第一个单元)=P(AB)=P(A)P(B) (9.2)
=(140/500)(162/500)
=0.09072
0.09072是第一个单元中的期望比例,相应的频数期望值为:
0.09072×500=45.36
一般地,可以采用下式计算任何一个单元中频数的期望值:
f.=(RT/n)×(CT/n)×n=RT×CT (9.3)
式中,f.为给定单元中的频数期望值;RT为给定单元所在行的合计;CT为给定单元所在列的合计;n为观察值的总个数,即样本量。
由表9-2和式(9.3),计算结果如表9-3所示。
表9-3:

的自由度=(R-1)(C-1)=4
α=0.05,查表可知,
0.05(4)=9.488
由于
>
0.05(4),故拒绝H0,接受H1,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。