1、在关联挖掘中,如何判断一个规则是有趣的、有用的?
有哪些指标可以进行辅助分析。
北宋文学家苏洵在《辨奸论》中提到"月晕而风,础润而雨",意思是月晕出现将要刮风,而础石湿润就要下雨。然而,月晕并非风产生的原因,湿润的石头也并不导致降雨。两者看起来高度相关,但之间却无因果关联。换言之,相关性并不意味着因果关系。
“关联关系”指的是不同事务同时出现的频繁现象,这种现象可能对应事务之间的关联模式,而“相关性”泛指不同事务之间呈现的统计学意义相关性数据表现。
关联关系的英文名称是Association 或Relationship,相关性的英文名称为Correlation。
在数据分析领域,关联关系分析属于探索性数据分析范畴,而相关性分析属于传统统计学范畴。
完整的关联分析理论及算法问世至今只有大约30年,而相关性分析在统计学中的历史非常悠久。以“啤酒与尿布”的故事为例,指的是“啤酒”与“尿布”二种商品会同时出现在购物篮中的现象,这种现象称为具有关联关系。
假定对“啤酒”与“尿布”这二种商品的销售指标进行统计分析,“啤酒”与“尿布”的销售量可能会呈现统计学意义的相关性表现。
从这个意义说,关联关系与相关性可以理解为同一个事件的二种表现形式。
相关性分析属于古典统计学范围,算法非常成熟,相关性分析可以找出双变量之间的数据变化关系,因此有时也被称为二元关系(Bivariate Relationship),根据相关性呈现的数据模型称为相关模型(Correlation Model),相关性分析可以将二组变量之间的数据表现可以精简为一个描述性数据:相关系数(Coefficient of correlation)。
相关性分析是零售业最有效的统计工具之一,相关性分析的最大魅力在于,可以将一大堆杂乱无章、单位不统一的复杂数据(这些数据应该发生在相同的时间、空间中),加工成一个简洁、有效、优雅的描述性数据,并找出其间的数据规律。
相关性分析可以找出变量之间的变换趋势,但是要找出这种变化趋势仅仅是数据表现,还是具有关联关系或因果关系,就需要通过关联关系挖掘算法,尤其是要通过序列关联分析,才可以判断相关性的性质。
在零售门店运营中,门店销售业绩是最受关注的,门店销售业绩会受到很多因素的影响,这些因素可能来自门店外部,如天气、湿度温度、光照度等,也可能来自门店内部、比如商品价格、促销等因素,内外因素叠加影响了门店的销售业绩,寻找这些影响因素、并加以量化分析,就是零售相关性分析的工作。