目录

  • 1 第一章 数据仓库概述
    • 1.1 授课安排
    • 1.2 数据仓库及其历史
      • 1.2.1 数据仓库的概念
        • 1.2.1.1 本节视频
      • 1.2.2 数据仓库特征
        • 1.2.2.1 本节视频
    • 1.3 数据仓库系统结构
      • 1.3.1 数据仓库系统的组成
        • 1.3.1.1 本节视频
      • 1.3.2 ETL
        • 1.3.2.1 本节视频
      • 1.3.3 数据仓库和数据集市的关系
      • 1.3.4 元数据及其管理
      • 1.3.5 数据集市和元数据管理视频
    • 1.4 数据仓库系统开发工具
    • 1.5 数据仓库与操作型数据库的关系
      • 1.5.1 本节视频内容
  • 2 第二章 数据仓库设计
    • 2.1 授课安排
    • 2.2 数据仓库设计概述
    • 2.3 数据仓库的规划和需求分析
    • 2.4 数据仓库的建模
    • 2.5 数据仓库的物理模型设计
    • 2.6 数据仓库的部署和维护
  • 3 第三章 OLAP技术
    • 3.1 授课安排
    • 3.2 OLAP概述
    • 3.3 OLAP的多维数据模型
    • 3.4 OLAP实现
  • 4 第四章 数据
    • 4.1 课程资料
  • 5 第五章 数据挖掘概述
    • 5.1 授课安排
    • 5.2 什么是数据挖掘?
    • 5.3 数据挖掘系统
    • 5.4 视频
    • 5.5 数据挖掘过程
  • 6 第六章 关联分析
    • 6.1 授课安排
    • 6.2 关联分析概念
    • 6.3 Apriori算法
    • 6.4 FP-growth树
    • 6.5 多层关联规则
    • 6.6 【扩充知识】机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
  • 7 第七章 序列模式挖掘
    • 7.1 序列模式挖掘概述
    • 7.2 AprioriAll算法
    • 7.3 AprioriSome算法
    • 7.4 FreeSpan算法
    • 7.5 PrefixSpan算法
  • 8 第八章 聚类分析
    • 8.1 聚类概述
  • 9 分类算法
    • 9.1 课件
  • 10 实验1 python基础
    • 10.1 讲解文本内容
    • 10.2 课程PDF
    • 10.3 实验代码
    • 10.4 实验报告封皮
  • 11 实验2-python
    • 11.1 讲解文本内容
    • 11.2 实验代码
    • 11.3 实验报告封面
  • 12 实验3--python
    • 12.1 讲解文本内容
    • 12.2 实验代码
    • 12.3 实验报告封面
  • 13 实验4--python
    • 13.1 讲解文本内容
    • 13.2 21.1实验代码
    • 13.3 实验内容2
    • 13.4 实验内容3
    • 13.5 实验报告封面
  • 14 实验5--python
    • 14.1 文本内容-NumPy模块
    • 14.2 第三方可视化数据分析图表
    • 14.3 数据
    • 14.4 思考题
    • 14.5 实验报告封面
  • 15 实验6--python
    • 15.1 实验 NumPy矩阵的基本操作
    • 15.2 实验 关联规则算法
    • 15.3 实验 商品零售购物篮分析
    • 15.4 实验报告封面
  • 16 实验7--python
    • 16.1 实验1 用关联规则分析方法推荐电影
    • 16.2 实验2 FP-growth算法
    • 16.3 实验3 教育平台的线上课程推荐策略
    • 16.4 实验报告封面
  • 17 实验8-python
    • 17.1 实验1 购物车分析
    • 17.2 实验2 基于关联规则的文本分析
  • 18 实验9--python
    • 18.1 实验1 聚类分析
    • 18.2 实验2 航空公司客户价值分析
    • 18.3 实验3 运输车辆安全驾驶行为分析
    • 18.4 实验报告封面
序列模式挖掘概述

序列模式挖掘概述




序列模式最早来源于零售业,购物篮数据常常包含关于商品何时被顾客购买的时间信息,可以使用这种信息,将顾客在一段时间内的购物拼接成事务序列,这些事务通常基于时间或空间的先后次序。

序列模式(sequential pattern)的概念最早是由AgrawalSrikant提出的,最初的动机是针对带有交易时间属性的交易数据库,通过找出频繁序列以发现某一时间段内客户的购买活动规律。

序列模式分析旨在寻找事件间在顺序上的相关性。

例子:ü凡是买了喷墨打印机的顾客中,80%的人在三个月之后又买了墨盒 。

   ü两年前购买了Ford 牌轿车的顾客,很可能在今年采取贴旧换新的购车行动。

   ü购买了自行车的客户中,70%的客户会在两个月后购买打气筒。

序列数据是由有序元素或事件的序列组成的,可以不包括具体的时间概念,序列数据的例子有客户购物序列、Web点击流和生物学序列等。

这类数据处理的不是一个时间点上的数据,而是大量时间点上的数据,因而具有自身的特殊性。

一、序列数据库

I={i1i2in}是所有项的集合,在购物篮例子中,每种商品就是一个项。项集是由项组成的一个非空集合,是多个物品组成的集合,内部元素不分排列顺序,比如“枕头和枕头套”就可以看作是由两个项(item)组成的项集 。

定义6.1  事件(events)是一个项集,在购物篮例子中,一个事件表示一个客户在特定商店的一次购物,一次购物可以购买多种商品,所以事件表示为(x1x2xq),其中xk1≤kq)是I中的一个项,一个事件中所有项均不相同,每个事件可以有一个事件时间标识TID,也可以表示事件的顺序。

定义6.2  序列sequence)是事件的有序列表,序列s记作<e1e2el>,其中ej1≤jl)表示事件,也称为s的元素。如

 lweb站点访问者访问的web页面序列:<{主页} {电子产品} {照相机和摄像机} {数码相机} {购物车} {订购确认} {返回购物}>

 l计算机科学主修课程序列:<{算法与数据结构, 操作系统引论} {数据库系统, 计算机体系结构} {计算机网络, 软件工程} {计算机图形学, 并行程序设计}>

通常一个序列中的事件有时间先后关系也就是说,ej1≤jl)出现在ej+1之前。

此外,序列可以用它的长度和出现时间个数刻画,序列的长度对应于出现序列中的元素个数,k-序列是包含k个事件的序列。上面例子中web序列包含7个元素和7个事件,课程序列包含4个元素和8个事件。

定义6.3  序列数据库sequence databasesS是元组<SIDs>的集合,其中SID是序列编号,s是一个序列,每个序列由若干事件构成。

  在序列数据库中每个序列的事件在时间或空间上是有序排列的

定义6.4   对于序列ts,如果t中每个有序元素都是s中一个有序元素的子集,则称ts的子序列。

  形式化表述为,序列t=<t1t2tm>是序列s=<s1s2sn>子序列如果存在整数1≤j1<j2<…<jmn,使得t1Ít2ÍtmÍ

  如果ts的子序列,则称t包含在s中。

   n例:序列<{2},{1.3} >是序列<{1,2},{5}, {1,3,4} >的子序列,因为{2}包含在{1,2}, {1.3}包含在{1,3,4}中,而<{2,5},{3} >不是<{1,2},{5}, {1,3,4} >的子序列,因为前者中项2和项5是一次性购买,后者中项2和项5是先后购买的,这就是区别。

定义6.5   如果一个序列s不包含在序列数据库S中的任何其他序列中,则称序列s最大序列

定义6.6   给定序列数据库SD,序列模式α一个序列α的支持度计数是指在整个序列数据库SD中包含α的序列个数,记为Count(α)Count(α)所占的百分比称为α的支持度,记为sup(α)即:sup(α)= Count(α) /|SD|

      其中,|·|表示集合中·出现的次数。若序列α的支持度计数不小于最小支持度阈值min_sup,则称之为频繁序列,频繁序列也称为序列模式

  长度为k的频繁序列称为频繁k-序列

二、序列模式挖掘

序列模式的挖掘任务是:给定序列数据库SD和最小支持度阙值minsup,找出SD中所有的频繁序列模式,这些频繁序列模式的支持度不小于min_sup

  n序列模式挖掘问题描述ü输入对于序列数据库D:I={i1, i2,…,in}是所有项目的集合每个序列都是按时间排列的一组交易每个交易包含以下字段:sequence-id, transaction-id, transaction-timeand a set of items.ü问题找到满足最小支持度的所有序列模式

n主要算法

  nApriori算法:GSP(Generalized Sequential Patterns)

  n基于模式增长(Pattern-Growth-based )的算法:PrefixSpan&FreeSpan