目录

  • 1 第一章 数据仓库概述
    • 1.1 授课安排
    • 1.2 数据仓库及其历史
      • 1.2.1 数据仓库的概念
        • 1.2.1.1 本节视频
      • 1.2.2 数据仓库特征
        • 1.2.2.1 本节视频
    • 1.3 数据仓库系统结构
      • 1.3.1 数据仓库系统的组成
        • 1.3.1.1 本节视频
      • 1.3.2 ETL
        • 1.3.2.1 本节视频
      • 1.3.3 数据仓库和数据集市的关系
      • 1.3.4 元数据及其管理
      • 1.3.5 数据集市和元数据管理视频
    • 1.4 数据仓库系统开发工具
    • 1.5 数据仓库与操作型数据库的关系
      • 1.5.1 本节视频内容
  • 2 第二章 数据仓库设计
    • 2.1 授课安排
    • 2.2 数据仓库设计概述
    • 2.3 数据仓库的规划和需求分析
    • 2.4 数据仓库的建模
    • 2.5 数据仓库的物理模型设计
    • 2.6 数据仓库的部署和维护
  • 3 第三章 OLAP技术
    • 3.1 授课安排
    • 3.2 OLAP概述
    • 3.3 OLAP的多维数据模型
    • 3.4 OLAP实现
  • 4 第四章 数据
    • 4.1 课程资料
  • 5 第五章 数据挖掘概述
    • 5.1 授课安排
    • 5.2 什么是数据挖掘?
    • 5.3 数据挖掘系统
    • 5.4 视频
    • 5.5 数据挖掘过程
  • 6 第六章 关联分析
    • 6.1 授课安排
    • 6.2 关联分析概念
    • 6.3 Apriori算法
    • 6.4 FP-growth树
    • 6.5 多层关联规则
    • 6.6 【扩充知识】机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
  • 7 第七章 序列模式挖掘
    • 7.1 序列模式挖掘概述
    • 7.2 AprioriAll算法
    • 7.3 AprioriSome算法
    • 7.4 FreeSpan算法
    • 7.5 PrefixSpan算法
  • 8 第八章 聚类分析
    • 8.1 聚类概述
  • 9 分类算法
    • 9.1 课件
  • 10 实验1 python基础
    • 10.1 讲解文本内容
    • 10.2 课程PDF
    • 10.3 实验代码
    • 10.4 实验报告封皮
  • 11 实验2-python
    • 11.1 讲解文本内容
    • 11.2 实验代码
    • 11.3 实验报告封面
  • 12 实验3--python
    • 12.1 讲解文本内容
    • 12.2 实验代码
    • 12.3 实验报告封面
  • 13 实验4--python
    • 13.1 讲解文本内容
    • 13.2 21.1实验代码
    • 13.3 实验内容2
    • 13.4 实验内容3
    • 13.5 实验报告封面
  • 14 实验5--python
    • 14.1 文本内容-NumPy模块
    • 14.2 第三方可视化数据分析图表
    • 14.3 数据
    • 14.4 思考题
    • 14.5 实验报告封面
  • 15 实验6--python
    • 15.1 实验 NumPy矩阵的基本操作
    • 15.2 实验 关联规则算法
    • 15.3 实验 商品零售购物篮分析
    • 15.4 实验报告封面
  • 16 实验7--python
    • 16.1 实验1 用关联规则分析方法推荐电影
    • 16.2 实验2 FP-growth算法
    • 16.3 实验3 教育平台的线上课程推荐策略
    • 16.4 实验报告封面
  • 17 实验8-python
    • 17.1 实验1 购物车分析
    • 17.2 实验2 基于关联规则的文本分析
  • 18 实验9--python
    • 18.1 实验1 聚类分析
    • 18.2 实验2 航空公司客户价值分析
    • 18.3 实验3 运输车辆安全驾驶行为分析
    • 18.4 实验报告封面
关联分析概念

关联分析概念


一、事务数据库

定义5.1 设I={i1i2,…,im}是一个全局项的集合,其中ij(1≤jm)是项(item)的唯一标识,j表示项的序号。

 比如:I={牛奶、面包、麦片、糖、黄油、鸡蛋}

事务数据库(transactional databases)D={t1t2,…,tn}是一个事务(transaction)的集合,每个事务ti(1≤in)都对应I上的一个子集,其中ti是事务的唯一标识,i表示事务的序号。

定义5.2  由I中部分或全部项构成的一个集合称为项集(itemset),任何非空项集中均不含有重复项。

I1={i1i3i4}就是一个项集。为了算法设计简单,本章中除特别声明外,假设所有项集中列出的各个项均按项序号或字典顺序有序排列。

购物篮问题:I是全部商品集合,D是所有顾客的购物清单,每个元组即事务是一次购买商品的集合。

如表5.1所示是一个购物事务数据库的示例,其中,I={i1i2i3i4i5},D={t1t2t3t4t5t6t7t8t9},t1={i1i2i5},…,t9={i1i2i3}。


二、关联规则及其度量

1、关联规则

关联规则表示项之间的关系,它是形如XY的蕴涵表达式,其中XY是不相交的项集,即XY=Ф,X称为规则的前件,Y称为规则的后件。

例如,{cerealmilk}→{fruit}关联规则表示的含义是购买谷类食品和牛奶的人也会购买水果,它的前件为{cerealmilk},后件为{fruit},有时也表示为{cerealmilk}→{fruit}cereal and milkfruit等形式。

2、支持度

定义5.3 给定一个全局项集I和事务数据库D,一个项集I1ÍID上的支持度是包含I1的事务在D中所占的百分比,即


其中,|•|表示•集合的计数,即其中元素个数。对于形如XY的关联规则,其支持度定义为:


采用概率的形式等价地表示为:


显然,support(XY)与support(YX)是相等的。例如,在表5.1的事务数据库D中,总的元组数为9,同时包含i1i2的元组数为4,则

support(i1i2)=support(i2i1)=4/9=0.44,这里相当于X={i1},Y={i2}。


支持度是一种重要性度量,因为低支持度的规则可能只是偶然出现。

从实际情况看,低支持度的规则多半是没有意义的。

例如,顾客很少同时购买ab商品,想通过对ab商品促销(降价)来提高另一种商品的销售量是不可能的。


3、置信度

定义5.4 给定一个全局项集I和事务数据库D,一个定义在ID上的关联规则形如XY,其中XYI,且XY=Ф,它的置信度(或可信度、信任度)是指包含XY的事务数与包含X的事务数之比,即:


采用概率的形式等价地表示为:


其中P(Y|X)表示Y在给定X下的条件概率。

置信度确定通过规则进行推理具有的可靠性。对于规则XY,置信度越高,Y在包含X的事务中出现的可能性越大。

 显然confidence(XY)与confidence(YX)不一定相等。例如,

confidence(i1t2)=4/6=0.67,confidence (i2t1)=4/7=0.57。


对于形如XY关联规则,support(XY)≤confidence(XY)总是成立的。

一个规则的支持度总是不大于其置信度。

定义5.5  给定D上的最小支持度(记为min_sup)和最小置信度(记为min_conf),分别称为最小支持度阈值和最小置信度阈值,同时满足最小支持度阈值和最小置信度阈值的关联规则称为强关联规则。

也就是说,某关联规则的最小支持度≥min_sup、最小置信度≥min_conf,则它为强关联规则


三、频繁项集


定义5.6给定全局项集I和事务数据库D,对于I的非空子集I1,若其支持度大于或等于min_sup,则称I1为频繁项集(Frequent Itemsets)。

I包含m个项,那么可以产生2m-1个非空项集。

 例如,I={i1i2i3},可以产生的非空项集为{i1},{i2},{i3},{i1i2},{i1i3},{i2i3},i1i2i3},共7个。 

定义5.7  对于I的非空子集I1,若某项集I1中包含有I中的k个项,称I1k-项集

k-项集I1是频繁项集,称为频繁k-项集。显然,一个项集是否频繁,需要通过事务数据库D来判断。


四、挖掘关联规则的基本过程

挖掘关联规则就是找出事务数据库D中的强关联规则,通常采用以下两个判断标准:

*最小支持度(包含):表示规则中的所有项在事务数据库D中同时出现的频度应满足的最小频度。*最小置信度(排除):表示规则中前件项的出现暗示后件项出现的概率应满足的最小概率。

挖掘强关联规则两个基本步骤如下:

找频繁项集:通过用户给定最小支持度阈值min_sup,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。

生成强关联规则:通过用户给定最小置信度阈值min_conf,在频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。



关联规则

关联规则