1
模式识别与智能计算的MATLAB实现
1.4.4.2 2.4.2 聚类准则
2.4.2 聚类准则

在模式分类中,可以有多种不同的聚类方式,将未知类别的样本分类到对应的类中。在这个过程中,需要确定一种聚类准则来评价各种聚类方法的优劣。事实上,各种聚类方法的优劣只是就某种评价准则而言的,任何一种聚类方法要满足各种聚类准则是非常困难的。

聚类准则的确定主要有两种方式。

1.试探方式

凭直觉和经验,针对实际问题给定一种模式相似性测度的阈值,按最近邻规则指定待分类样本属于某一类。例如在以“距离”为相似性测度时,规定一个阈值,如果待测样本与某一类的距离小于阈值,则归入该类。

2.聚类准则函数法

定义一种聚类准则函数,其函数值与样本的划分有关,当此值达到极值时,就认为样本得到了最佳的划分。常用的聚类函数有误差平方和准则及类间距离和准则。

(1)误差平方和准则

误差平方和也称为类内距离和准则,是一种简单而又应用广泛的聚类准则,其表达式为

alt

其中,μi为类ωi的均值;J为样本与聚类中心的函数,表示各样本到其被划分类别的中心的距离之平方和。最佳的划分就是使J最小的那种划分。

该准则适用于同类样本比较密集,各类样本数目相差不大,而且类间距离较大时的情况。当各类样本数相差很大且类间距离较小时,采用该准则就有可能将样本数多的类拆成两类或多类,从而出现错误聚类。

(2)类间距离和准则或离散度准则

类间距离和定义为

alt

其中μi、μ分别为类ωi和全部样本的均值。

加权的类间距离和定义为

alt

对应一种划分,可求得一个类间距离和。类间距离和准则是找到使类间距离和最大的那种划分。

事实上,类间距离和及类内距离和的统称为离散度矩阵。

类内离散度矩阵Si和总类内离散度矩阵Sw分别为

alt

类间离散度矩阵为

alt

总离散度矩阵为

alt

如果采用最小化类内离散度矩阵的迹作为准则函数,则可以同时最小化类内离散度迹和最大化类间离散度迹。