课程门户-章节详情

数据仓库与数据挖掘A

胡彦蓉

1 第一章数据仓库概述
- 1.1 授课安排
- 1.2 数据仓库及其历史
  - 1.2.1 数据仓库的概念
    - 1.2.1.1 本节视频
  - 1.2.2 数据仓库特征
    - 1.2.2.1 本节视频
- 1.3 数据仓库系统结构
  - 1.3.1 数据仓库系统的组成
    - 1.3.1.1 本节视频
  - 1.3.2 ETL
    - 1.3.2.1 本节视频
  - 1.3.3 数据仓库和数据集市的关系
  - 1.3.4 元数据及其管理
  - 1.3.5 数据集市和元数据管理视频
- 1.4 数据仓库系统开发工具
- 1.5 数据仓库与操作型数据库的关系
  - 1.5.1 本节视频内容
2 第二章数据仓库设计
- 2.1 授课安排
- 2.2 数据仓库设计概述
- 2.3 数据仓库的规划和需求分析
- 2.4 数据仓库的建模
- 2.5 数据仓库的物理模型设计
- 2.6 数据仓库的部署和维护
3 第三章 OLAP技术
- 3.1 授课安排
- 3.2 OLAP概述
- 3.3 OLAP的多维数据模型
- 3.4 OLAP实现
4 第四章数据
- 4.1 课程资料
5 第五章数据挖掘概述
- 5.1 授课安排
- 5.2 什么是数据挖掘？
- 5.3 数据挖掘系统
- 5.4 视频
- 5.5 数据挖掘过程
6 第六章关联分析
- 6.1 授课安排
- 6.2 关联分析概念
- 6.3 Apriori算法
- 6.4 FP-growth树
- 6.5 多层关联规则
- 6.6 【扩充知识】机器学习——关联规则——支持度（support)、置信度（confidence）、提升度（Lift)
7 第七章序列模式挖掘
- 7.1 序列模式挖掘概述
- 7.2 AprioriAll算法
- 7.3 AprioriSome算法
- 7.4 FreeSpan算法
- 7.5 PrefixSpan算法
8 第八章聚类分析
- 8.1 聚类概述
9 分类算法
- 9.1 课件
10 实验1 python基础
- 10.1 讲解文本内容
- 10.2 课程PDF
- 10.3 实验代码
- 10.4 实验报告封皮
11 实验2-python
- 11.1 讲解文本内容
- 11.2 实验代码
- 11.3 实验报告封面
12 实验3--python
- 12.1 讲解文本内容
- 12.2 实验代码
- 12.3 实验报告封面
13 实验4--python
- 13.1 讲解文本内容
- 13.2 21.1实验代码
- 13.3 实验内容2
- 13.4 实验内容3
- 13.5 实验报告封面
14 实验5--python
- 14.1 文本内容-NumPy模块
- 14.2 第三方可视化数据分析图表
- 14.3 数据
- 14.4 思考题
- 14.5 实验报告封面
15 实验6--python
- 15.1 实验 NumPy矩阵的基本操作
- 15.2 实验关联规则算法
- 15.3 实验商品零售购物篮分析
- 15.4 实验报告封面
16 实验7--python
- 16.1 实验1 用关联规则分析方法推荐电影
- 16.2 实验2 FP-growth算法
- 16.3 实验3 教育平台的线上课程推荐策略
- 16.4 实验报告封面
17 实验8-python
- 17.1 实验1 购物车分析
- 17.2 实验2 基于关联规则的文本分析
18 实验9--python
- 18.1 实验1 聚类分析
- 18.2 实验2 航空公司客户价值分析
- 18.3 实验3 运输车辆安全驾驶行为分析
- 18.4 实验报告封面

序列模式挖掘概述

序列模式最早来源于零售业，购物篮数据常常包含关于商品何时被顾客购买的时间信息，可以使用这种信息，将顾客在一段时间内的购物拼接成事务序列，这些事务通常基于时间或空间的先后次序。

序列模式(sequential pattern)的概念最早是由Agrawal和Srikant提出的，最初的动机是针对带有交易时间属性的交易数据库，通过找出频繁序列以发现某一时间段内客户的购买活动规律。

序列模式分析旨在寻找事件间在顺序上的相关性。

例子：ü凡是买了喷墨打印机的顾客中，80%的人在三个月之后又买了墨盒。

ü两年前购买了Ford 牌轿车的顾客，很可能在今年采取贴旧换新的购车行动。

ü购买了自行车的客户中，70%的客户会在两个月后购买打气筒。

序列数据是由有序元素或事件的序列组成的，可以不包括具体的时间概念，序列数据的例子有客户购物序列、Web点击流和生物学序列等。

这类数据处理的不是一个时间点上的数据，而是大量时间点上的数据，因而具有自身的特殊性。

一、序列数据库

设I={i1，i2，…，in}是所有项的集合，在购物篮例子中，每种商品就是一个项。项集是由项组成的一个非空集合，是多个物品组成的集合，内部元素不分排列顺序，比如“枕头和枕头套”就可以看作是由两个项(item)组成的项集。

定义6.1 事件（events）是一个项集，在购物篮例子中，一个事件表示一个客户在特定商店的一次购物，一次购物可以购买多种商品，所以事件表示为（x1，x2，…，xq），其中xk（1≤k≤q）是I中的一个项，一个事件中所有项均不相同，每个事件可以有一个事件时间标识TID，也可以表示事件的顺序。

定义6.2 序列（sequence）是事件的有序列表，序列s记作<e1，e2，…，el>，其中ej（1≤j≤l）表示事件，也称为s的元素。如

lweb站点访问者访问的web页面序列：<{主页} {电子产品} {照相机和摄像机} {数码相机} {购物车} {订购确认} {返回购物}>

l计算机科学主修课程序列：<{算法与数据结构，操作系统引论} {数据库系统，计算机体系结构} {计算机网络，软件工程} {计算机图形学，并行程序设计}>

通常一个序列中的事件有时间先后关系，也就是说，ej（1≤j≤l）出现在ej+1之前。

此外，序列可以用它的长度和出现时间个数刻画，序列的长度对应于出现序列中的元素个数，k-序列是包含k个事件的序列。上面例子中web序列包含7个元素和7个事件，课程序列包含4个元素和8个事件。

定义6.3 序列数据库（sequence databases）S是元组<SID，s>的集合，其中SID是序列编号，s是一个序列，每个序列由若干事件构成。

　　在序列数据库中每个序列的事件在时间或空间上是有序排列的。

定义6.4 对于序列t和s，如果t中每个有序元素都是s中一个有序元素的子集，则称t是s的子序列。

　　形式化表述为，序列t=<t1，t2，…，tm>是序列s=<s1，s2，…，sn>的子序列，如果存在整数1≤j1<j2<…<jm≤n，使得t1Í，t2Í，…，tmÍ。

　　如果t是s的子序列，则称t包含在s中。

n例：序列<{2},{1.3} >是序列<{1,2},{5}, {1,3,4} >的子序列，因为{2}包含在{1,2}中, {1.3}包含在{1,3,4}中，而<{2,5},{3} >不是<{1,2},{5}, {1,3,4} >的子序列，因为前者中项2和项5是一次性购买，后者中项2和项5是先后购买的，这就是区别。

定义6.5 如果一个序列s不包含在序列数据库S中的任何其他序列中，则称序列s为最大序列。

定义6.6 给定序列数据库SD，序列模式α。一个序列α的支持度计数是指在整个序列数据库SD中包含α的序列个数，记为Count(α)。Count(α)所占的百分比称为α的支持度，记为sup(α)。即：sup(α)= Count(α) /|SD|

其中，|·|表示集合中·出现的次数。若序列α的支持度计数不小于最小支持度阈值min_sup，则称之为频繁序列，频繁序列也称为序列模式。

　　长度为k的频繁序列称为频繁k-序列。

二、序列模式挖掘

序列模式的挖掘任务是：给定序列数据库SD和最小支持度阙值minsup，找出SD中所有的频繁序列模式，这些频繁序列模式的支持度不小于min_sup。

n序列模式挖掘问题描述ü输入–对于序列数据库D:•I={i1, i2,…,in}是所有项目的集合•每个序列都是按时间排列的一组交易•每个交易包含以下字段:sequence-id, transaction-id, transaction-timeand a set of items.ü问题–找到满足最小支持度的所有序列模式

n主要算法

n类Apriori算法:GSP(Generalized Sequential Patterns)：

n基于模式增长（Pattern-Growth-based ）的算法:PrefixSpan&FreeSpan

序列模式挖掘概述

图片预览