Apriori Algorithm in Financial Scenario (1)-Introduction Apriori算法与金融应用——算法介绍
上一节
下一节
主要知识点:
金融项集与格结构
枚举所有可能金融项集的结构。下图是一个包含A,B,C,D,E五个项的项集格,这五个单项可以用来代表事务数据集中的一些项,例如不同的金融产品。包含d个单项的金融数据集可以产生包括空集在内的共2的d次方个金融项集。

2.挖掘格结构中金融频繁项集的方法——暴力方法
针对格结构中的每个候选金融项集,通过扫描数据集确定每个候选金融项集的支持度,选取支持度超过最小支持度阈值的为金融频繁项集。假设金融数据集中的事务个数为N个,事务的宽度为w,那么暴力方法的复杂度就等于N乘以w乘以2的d次方。
3.简化暴力方法的思路
减少候选项集的数目,降低指数级别的候选项集。(先验原理思路)
减少候选项集与事务之间的比对次数。(哈希树思路)
减少事务的个数,随着候选项集的规模越来越大,能支持项集的事务会越来越少。
4.先验原理
如果一个项集是频繁的,那么它的所有子集都是频繁的。
利用先验原理进行支持度的剪枝,即一个项集的支持度绝对不会超过它的子集的支持度。
5.Apriori算法中频繁项集产生的主要步骤
该算法是一种使用产生-测试策略产生频繁项集的策略,步骤中,Fk是k-频繁项集,Lk是候选k-项集。
步骤1:通过单遍扫描数据集,确定每个单项的支持度,产生频繁1-项集;
步骤2:迭代的运用candidate-gen函数的从频繁k-项集Fk中产生候选Lk+1项集;
步骤3:迭代的运用candidate-prune函数对非频繁的候选Lk+1项集进行剪枝操作;
步骤4:需要重新扫描数据集确定候选Lk+1项集的支持度计数;
步骤5:删去支持度小于最小支持度阈值的候选Lk+1项集;
步骤6:当没有新的频繁项集产生,即Fk等于空集时,算法结束。

