1
模式识别与智能计算的MATLAB实现
1.14.1.3 12.1.3 树形图
12.1.3 树形图

雷达图中,变量的次序是任意的,有时变量的安排使图形显得茫然,不利于从整体上比较和评估数据变化的规律性。树形图可以克服这个缺陷。

树形图是用一棵树来表达多个变量,树上每一个末树枝对应一个变量,这棵树的分叉的位置与角度,即变量的次序是根据层次聚类的原则确定的,主干树取决于分枝聚类时的主导变量,而分支按相关程度依次从高到低排列。末枝的长度表示变量的观察值,分支的长度是其上末枝长度的平均值,分叉的角度等价于两变量间相关系数rij的夹角余弦。令θij表示变量xi和变量xj之间的夹角,则

θij=arccosrij

即相关性强则夹角小,相关性弱则夹角大。如此依相关程度层层聚类,直至最后的树枝而形成一棵完整的树。图12.1即为树形图,图中:

alt

图12.1 树形图

alt

θ12=arccosr12,θ34=arccosr34,θ0=arccosr18(假设大枝是由分量x1和x8决定)

画树形图前,首先对数据进行层次聚类以得到聚类树,由聚类树画出多元树形图是很容易的。