Cluster Analysis in Financial Scenario-basic concept and idea 聚类分析与金融应用——基本概念与思想
上一节
下一节
主要知识点:
1. 什么是聚类分析
聚类分析仅根据在数据中发现的描述数据对象及其关系的信息,将数据对象分在不同的簇中。
聚类分析的目标:同一个簇内的数据对象具有高的相似性,不同簇的数据对象之间不相似。
2. 可运用于金融场景的聚类分析的类型
层次聚类和划分聚类。层次聚类允许簇有子簇,是嵌套簇的集合,能够组织成一棵树,除叶结点外,树中每一个结点都是其子女即子簇的并集,那么相应的,树根结点就是包含所有对象的簇。划分聚类将数据对象划分为不重叠的簇,和层次聚类不一样的是,划分聚类中的数据对象只会存在于一个簇中。
互斥聚类,重叠聚类和模糊聚类。互斥聚类,即每个数据对象都被分组到单个簇中,不会出现在另外的簇中。重叠聚类是一种非互斥聚类,即一个数据对象可以同时属于多个簇。模糊聚类中,每个数据对象以0(绝对不属于)和1(绝对属于)之间的隶属权值归属于每个簇,也可以认为簇是模糊集。
完全聚类和部分聚类。完全聚类中,每个数据对象都能被指派到一个簇。但部分聚类不能做到将每个数据对象都指派簇,这是因为数据集中的某些数据对象不属于明确定义的簇,例如金融数据集中可能包含的噪声、离群点等数据对象,这时就需要考虑部分聚类。
3. 簇的不同类型
明显分离的簇,即不同簇中任意两个数据对象之间的距离都大于同一簇内任意两个数据对象间的距离。
基于原型的簇,即簇中每个数据对象到定义该簇的原型的距离比到其他簇的原型的距离更小。对于连续属性的数据对象,原型通常是质心,即所有数据对象的平均值。
基于密度的簇,此时簇是数据对象的稠密区域,被低密度的区域环绕。

