课程门户-章节详情

数据仓库与数据挖掘A

胡彦蓉

1 第一章数据仓库概述
- 1.1 授课安排
- 1.2 数据仓库及其历史
  - 1.2.1 数据仓库的概念
    - 1.2.1.1 本节视频
  - 1.2.2 数据仓库特征
    - 1.2.2.1 本节视频
- 1.3 数据仓库系统结构
  - 1.3.1 数据仓库系统的组成
    - 1.3.1.1 本节视频
  - 1.3.2 ETL
    - 1.3.2.1 本节视频
  - 1.3.3 数据仓库和数据集市的关系
  - 1.3.4 元数据及其管理
  - 1.3.5 数据集市和元数据管理视频
- 1.4 数据仓库系统开发工具
- 1.5 数据仓库与操作型数据库的关系
  - 1.5.1 本节视频内容
2 第二章数据仓库设计
- 2.1 授课安排
- 2.2 数据仓库设计概述
- 2.3 数据仓库的规划和需求分析
- 2.4 数据仓库的建模
- 2.5 数据仓库的物理模型设计
- 2.6 数据仓库的部署和维护
3 第三章 OLAP技术
- 3.1 授课安排
- 3.2 OLAP概述
- 3.3 OLAP的多维数据模型
- 3.4 OLAP实现
4 第四章数据
- 4.1 课程资料
5 第五章数据挖掘概述
- 5.1 授课安排
- 5.2 什么是数据挖掘？
- 5.3 数据挖掘系统
- 5.4 视频
- 5.5 数据挖掘过程
6 第六章关联分析
- 6.1 授课安排
- 6.2 关联分析概念
- 6.3 Apriori算法
- 6.4 FP-growth树
- 6.5 多层关联规则
- 6.6 【扩充知识】机器学习——关联规则——支持度（support)、置信度（confidence）、提升度（Lift)
7 第七章序列模式挖掘
- 7.1 序列模式挖掘概述
- 7.2 AprioriAll算法
- 7.3 AprioriSome算法
- 7.4 FreeSpan算法
- 7.5 PrefixSpan算法
8 第八章聚类分析
- 8.1 聚类概述
9 分类算法
- 9.1 课件
10 实验1 python基础
- 10.1 讲解文本内容
- 10.2 课程PDF
- 10.3 实验代码
- 10.4 实验报告封皮
11 实验2-python
- 11.1 讲解文本内容
- 11.2 实验代码
- 11.3 实验报告封面
12 实验3--python
- 12.1 讲解文本内容
- 12.2 实验代码
- 12.3 实验报告封面
13 实验4--python
- 13.1 讲解文本内容
- 13.2 21.1实验代码
- 13.3 实验内容2
- 13.4 实验内容3
- 13.5 实验报告封面
14 实验5--python
- 14.1 文本内容-NumPy模块
- 14.2 第三方可视化数据分析图表
- 14.3 数据
- 14.4 思考题
- 14.5 实验报告封面
15 实验6--python
- 15.1 实验 NumPy矩阵的基本操作
- 15.2 实验关联规则算法
- 15.3 实验商品零售购物篮分析
- 15.4 实验报告封面
16 实验7--python
- 16.1 实验1 用关联规则分析方法推荐电影
- 16.2 实验2 FP-growth算法
- 16.3 实验3 教育平台的线上课程推荐策略
- 16.4 实验报告封面
17 实验8-python
- 17.1 实验1 购物车分析
- 17.2 实验2 基于关联规则的文本分析
18 实验9--python
- 18.1 实验1 聚类分析
- 18.2 实验2 航空公司客户价值分析
- 18.3 实验3 运输车辆安全驾驶行为分析
- 18.4 实验报告封面

数据

1、标称数据

标称数据是没有自然顺序的离散、非数值型值。

2、序数数据

序数数据是离散、非数值型值，但不同于标称数据，序数数据有自然顺序。MATLAB提供ordinal数组对象来存储和操纵序数数据。

3、分类数据

categorical数据类型用于创建有限离散分类数据，该类型与nominal和ordinal的用法类似。

4、示例数据集

为了便于和其他算法的性能进行比对，本书绝大部分示例都使用一些公开的数据集。下面对经常使用的数据集进行说明。

（1）天气问题

天气问题的数据集很小，其数据纯属虚构，只是为了用来说明机器学习的方法。

天气问题有四个属性：天气趋势（outlook）、温度（temperature）、湿度（humidity）和刮风（windy）。还有一个目标属性（play）表示样本的类别，即在四个属性值确定的前提下得到是否可运动的结论。

天气问题仅有14个样本，表1所示为天气问题的简单形式，四个属性都采用离散的标称型来表示，而不采用连续型数值。其中，天气趋势的属性值有sunny（晴）、overcast（多云）和rainy（雨）；温度属性值有hot（热）、mild（温暖）和cool（凉爽）；湿度属性值有high（高）和normal（正常）；刮风属性值有TRUE（真）和FALSE（假）；是否可运动属性值有yes（是）和no（否）。

表1　标称属性的天气问题

2023-11-07 084518781.jpg

机器学习的一个目标就是要找出数据的内在模式，本例中，就是要得到在什么天气情况下可运动的规则。然后，根据这个规则，对给定新的天气情况，如：

outlook = sunny and humidity = high then play = ?

给出是否可玩的判断。

表2所示为天气问题的稍微复杂一点的形式。温度和湿度两个属性的数据类型由离散的标称型变为连续的数值型。如果全部属性都是数值型，就称为数值属性问题。但这里不是所有属性都是数值型，因此称为混合属性问题。

显然，如果包含了数值类型的属性，学习方案可能需要对此类属性建立不等式，因此，得到包含数值测试的规则有些复杂。例如，决策规则可能是这样的：

if outlook = sunny and humidity <= 75 then play = yes

表2　混合属性的天气问题

2023-11-07 084551986.jpg

（2）鸢尾花

鸢尾花（iris）是非常著名的用于模式识别的数据集，该数据集于1936年由R. A. Fisher创建，Fisher的论文也成为经典，直到今天还经常被引用。鸢尾花原始数据集位于网站http://archive.ics.uci.edu/ml/datasets/Iris。

加载后，鸢尾花的类别属性放在species中，这是一个150×1的cell数组；4个属性放在meas中，这是一个150×4的double型矩阵。其中，species有三种取值，也就是鸢尾花的三个类别：setosa（山鸢尾）、versicolor（变色鸢尾）和virginica（维吉尼亚鸢尾），每个类别各有50个实例。meas定义了如下4个属性：sepal length（花萼长）、sepal width（花萼宽）、petal length（花瓣长）、petal width（花瓣宽）。这些长宽属性都是数值类型，单位为cm（厘米）。

表3摘录自鸢尾花数据集。该数据集就是要根据鸢尾花的花萼长宽和花瓣长宽数据，找出不同类别花的特点分布情况，揭示其中隐藏的规律性。

表3　鸢尾花数据集

2023-11-07 084627130.jpg

所需代码：

图片预览