主要知识点:
列联表
假设给定规则X,Y,相对应的列联表如下表所示,该表中,不同的fij表示不同的频度计数。其中,f11表示同时包含X和Y的事务数,f10表示包含X但不包含Y的事务数,f01表示不包含X但包含Y的事务数,f00表示即不包含X也不包含Y的事务数。那么可以较为容易的发现行之和f1+表示X的支持度计数,f+1表示Y的支持度计数。

2.金融关联模式的客观度量方法
提升度,也叫做兴趣因子。对于关联规则X,Y,相应的提升度计算公式如下式所示,它能够评估一个项集的出现“提升”另一个项集出现的程度。当提升度大于1时,P(Y|X)>P(Y),表示X和Y正相关;当提升度等于1时,P(Y|X)=P(Y),表示X和Y相互独立;提升度小于1时,P(Y|X)<P(Y),表示X和Y负相关。

PS度量(Piatesky-Shapiro)。对于关联规则X,Y,相应的PS度量计算公式如下式所示,它主要考虑P(X,Y)和P(X)乘以P(Y)之间的差异。当PS度量大于0时,P(X,Y)大于P(X)乘以P(Y),表示X和Y正相关;当PS度量等于0时,P(X,Y)等于P(X)乘以P(Y),表示X和Y相互独立;当PS度量小于0时,P(X,Y)小于P(X)乘以P(Y),表示X和Y负相关。

ϕ系数(ϕ−coefficient)。对于关联规则X,Y,相应的ϕ系数计算公式如下式所示,它和用于度量连续变量的皮尔逊相关系数有点相像。ϕ系数的取值范围在-1到1之间,当等于-1时,表示X和Y完全负相关,当等于0时,表示X和Y没有关联,当等于1时,表示X和Y完全正相关。

余弦度量(cosine)。对于关联规则X,Y,相应的余弦度量计算公式如下下式所示,该度量可以看成是调和提升度度量。它对X和Y的概率的乘积取平方根,因此余弦度量仅受X, Y 和(X,Y)的支持度的影响,不受数据事务总个数的影响。余弦度量的取值范围在0到1之间,越大表示越相关。


