Apriori Algorithm in Financial Scenario (4)-Rule Generation and Complexity Apriori算法与金融应用——规则生成与算法复杂度
上一节
下一节
主要知识点:
1.金融关联规则的产生过程
针对产生的k-频繁金融项集Y,划分出所有的非空子集X,如果候选规则满足最小置信度阈值的条件,该规则就是要提取的关联规则。
在同一个金融项集中产生的规则,一个规则的置信度绝不会超过规则后件是其后件子集的规则的置信度。
Apriori算法通过逐层的方法来产生关联规则,其中每层对应于规则后件中的项数。首先,提取规则后件只含一个项的所有高置信度规则,然后,使用这些规则来产生新的候选规则。同时,可以依据前述置信度的反单调性进行计算的简化
2.影响Apriori算法复杂度的主要因素
支持度阈值,更低的支持度阈值会产生更多的频繁项集,频繁项集的最大长度也会增加,进而增加算法的复杂度。
项数,更多的项数会需要更多的空间来储存支持度计数。另外,项数维度的增加也会增加频繁项集的长度,进而增加算法复杂度。
事务数,算法需要扫描整个事务数据集,因此事务数的增多会增加算法的运行时间。
事务的平均宽度,一方面事务平均宽度的增加将会增加频繁项集的长度,另一方面会增加支持度计数的计算时间,从而增加算法的复杂度。
3.频繁项集的紧凑表示
极大频繁项集。如果一个频繁项集的直接超集都不是频繁的,那么该项集就是极大频繁项集。极大频繁项集可以形成导出所有频繁项集的最小的项集的集合。
闭项集。如果一个项集X的直接超集都不具备和它相同的支持度计数,那么项集X是一个闭项集。如果知道了闭项集的支持度计数,可以得到其他项集的支持度计数信息。
闭频繁项集。如果一个闭项集是频繁项集,那么它是闭频繁项集。
频繁项集、闭项集、闭频繁项集和极大频繁项集之间的关系,如下图所示。


