Introduction to Basic Hierarchical Clustering Algorithm in Financial Scenario 基本层次聚类算法算法与金融应用——算法介绍
上一节
下一节
主要知识点:
层次聚类技术
一般来说,有两种产生层次聚类的基本方法:第一种是凝聚技术,即从点(数据对象)作为个体簇开始,每一步合并两个最接近的簇;第二种是分裂技术,从包含所有点(数据对象)的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。下图是两种层次聚类方法的图示。可以发现,左边的凝聚层次聚类是从下向上的过程,从个体簇到包含所有点的簇,而右边的分裂层次聚类是从上向下的过程,从包含所有点的簇到个体簇。

基本凝聚层次聚类算法主要步骤
步骤一,计算邻近度矩阵
步骤二,将每一个点(数据对象)作为一个簇
步骤三,合并最接近的两个簇
步骤四,更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近性
步骤五,以上两个步骤不断重复,直至只剩下最后一个簇
基于图的簇邻近度的计算方法
单链,将簇的邻近度定义为不同簇的两个最近的点之间的邻近度,是两个簇中的点之间的最短边。
全链,将簇的邻近度定义为不同簇中两个最远的点之间的邻近度,是两个簇中的点之间的最长边。
组平均,将簇的邻近度定义为不同簇的所有点对邻近度的平均值。

