FP Tree Algorithm in Financial Scenario-Introduction FP Tree算法与金融应用——算法介绍
上一节
下一节
主要知识点:
1.Apriori算法的缺陷
由于它是一种逐层寻找的算法,即先寻找频繁1-项集,然后2-项集等等。因此若频繁1-项集的数目相当大,那么在后续将会产生大量的候选2-项集等,产生较多开销。
该算法是一个候选产生到测试的二阶段过程。在寻找频繁项集的过程中,将需要数次扫描整个数据集,产生较多开销。
2.频繁模式增长算法
FP增长算法采用和Apriori算法完全不同的方式来产生频繁项集。首先,它采用一种名为频繁模式树(FP树)的紧凑数据结构压缩表示数据;其次,只要FP树构造好了,就可以采用递归的分治策略从该树中直接挖掘出频繁项集。
3.FP树
FP树是一种输入数据的压缩表示,它通过逐条读入事务数据,并且将每条事务数据映射到FP树中的一条路径来进行构造。
因为不同的事务数据会有相同的项。例如在金融产品购买数据中,不同顾客可能都会购买相同的金融产品,那么这就会导致FP树中部分路径重叠,越多的路径相互重叠,使用FP树结构获得的压缩效果越好。
4.金融场景FP树的构建过程
步骤1:扫描一次金融数据集,确定数据集中每个项的支持度计数,丢弃非频繁项,将频繁项按照支持度计数的大小递减进行排序。
步骤2:第二次扫描金融数据集,构造FP树,包含读取每一条事务数据,构造FP树路径上的结点,和对事务进行编码。
步骤3:以上两步不断重复,直到每条金融事务数据都映射到FP树上的一条路径,FP树就构造完成。
5.如何使用FP树产生频繁金融项集
从FP树产生频繁金融项集是一种自底向上的方式探索树的一种方法。
针对某个结点n,综合其所有前缀路径构造它的条件模式基(即以结点为结尾的路径合集)。
转化结点的前缀路径构造条件FP树。
从条件FP树中挖掘出频繁项集。

