Introduction to K-means Algorithm in Financial Scenario K-means算法与金融应用——算法介绍与实例
上一节
下一节
主要知识点:
什么是k-均值算法
k-均值算法是一种迭代算法,它依据数据对象的特征将数据集划分为预先设定好的K个不重叠的簇。首先,因为它将数据划分为不重叠的簇,所以它是一种划分聚类方法;其次,簇的个数K,是需要预先设定的;另外,每个簇都与一个质心相关;最后,在算法中,每个数据对象都被指派到最近质心的簇。
k-均值算法的基本步骤
如下图示,步骤一,选择K个初始质心,其中k是预先指定的参数,即期望的簇的个数。步骤二,每个数据对象被指派到最近的质心,指派到一个质心的集合为一个簇。,步骤三,根据新的被指派到簇的数据对象,重新计算每个簇的质心。步骤二和步骤三不断重复,直到簇不再发生变化,或者质心不再发生变化。

3. k-均值算法中的关键问题
什么是质心?一般来说,质心是簇中数据对象的均值,有时也会因为目标函数的不同,选择中位数当作质心。
初始质心的选择问题,一般来说,初始质心的选择都是随机的,但拙劣的初始质心的选择可能会导致较差的聚类结果。
指派数据对象到最近的质心,那么为了寻找到“最近”,需要量化数据对象与质心间的距离,如欧几里得距离,曼哈顿距离,针对金融文档数据,可以采用余弦相似性等。
重新计算每个簇的质心。由于质心可依据数据对象邻近度度量指标和聚类目标的不同而发生改变,因此一旦选定了邻近度度量指标和聚类目标,质心的选择就可以确定了。

