目录

  • 1 第一章 数据仓库概述
    • 1.1 授课安排
    • 1.2 数据仓库及其历史
      • 1.2.1 数据仓库的概念
        • 1.2.1.1 本节视频
      • 1.2.2 数据仓库特征
        • 1.2.2.1 本节视频
    • 1.3 数据仓库系统结构
      • 1.3.1 数据仓库系统的组成
        • 1.3.1.1 本节视频
      • 1.3.2 ETL
        • 1.3.2.1 本节视频
      • 1.3.3 数据仓库和数据集市的关系
      • 1.3.4 元数据及其管理
      • 1.3.5 数据集市和元数据管理视频
    • 1.4 数据仓库系统开发工具
    • 1.5 数据仓库与操作型数据库的关系
      • 1.5.1 本节视频内容
  • 2 第二章 数据仓库设计
    • 2.1 授课安排
    • 2.2 数据仓库设计概述
    • 2.3 数据仓库的规划和需求分析
    • 2.4 数据仓库的建模
    • 2.5 数据仓库的物理模型设计
    • 2.6 数据仓库的部署和维护
  • 3 第三章 OLAP技术
    • 3.1 授课安排
    • 3.2 OLAP概述
    • 3.3 OLAP的多维数据模型
    • 3.4 OLAP实现
  • 4 第四章 数据
    • 4.1 课程资料
  • 5 第五章 数据挖掘概述
    • 5.1 授课安排
    • 5.2 什么是数据挖掘?
    • 5.3 数据挖掘系统
    • 5.4 视频
    • 5.5 数据挖掘过程
  • 6 第六章 关联分析
    • 6.1 授课安排
    • 6.2 关联分析概念
    • 6.3 Apriori算法
    • 6.4 FP-growth树
    • 6.5 多层关联规则
    • 6.6 【扩充知识】机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
  • 7 第七章 序列模式挖掘
    • 7.1 序列模式挖掘概述
    • 7.2 AprioriAll算法
    • 7.3 AprioriSome算法
    • 7.4 FreeSpan算法
    • 7.5 PrefixSpan算法
  • 8 第八章 聚类分析
    • 8.1 聚类概述
  • 9 分类算法
    • 9.1 课件
  • 10 实验1 python基础
    • 10.1 讲解文本内容
    • 10.2 课程PDF
    • 10.3 实验代码
    • 10.4 实验报告封皮
  • 11 实验2-python
    • 11.1 讲解文本内容
    • 11.2 实验代码
    • 11.3 实验报告封面
  • 12 实验3--python
    • 12.1 讲解文本内容
    • 12.2 实验代码
    • 12.3 实验报告封面
  • 13 实验4--python
    • 13.1 讲解文本内容
    • 13.2 21.1实验代码
    • 13.3 实验内容2
    • 13.4 实验内容3
    • 13.5 实验报告封面
  • 14 实验5--python
    • 14.1 文本内容-NumPy模块
    • 14.2 第三方可视化数据分析图表
    • 14.3 数据
    • 14.4 思考题
    • 14.5 实验报告封面
  • 15 实验6--python
    • 15.1 实验 NumPy矩阵的基本操作
    • 15.2 实验 关联规则算法
    • 15.3 实验 商品零售购物篮分析
    • 15.4 实验报告封面
  • 16 实验7--python
    • 16.1 实验1 用关联规则分析方法推荐电影
    • 16.2 实验2 FP-growth算法
    • 16.3 实验3 教育平台的线上课程推荐策略
    • 16.4 实验报告封面
  • 17 实验8-python
    • 17.1 实验1 购物车分析
    • 17.2 实验2 基于关联规则的文本分析
  • 18 实验9--python
    • 18.1 实验1 聚类分析
    • 18.2 实验2 航空公司客户价值分析
    • 18.3 实验3 运输车辆安全驾驶行为分析
    • 18.4 实验报告封面
数据

1、标称数据

标称数据是没有自然顺序的离散、非数值型值。

2、序数数据

序数数据是离散、非数值型值,但不同于标称数据,序数数据有自然顺序。MATLAB提供ordinal数组对象来存储和操纵序数数据。

3、分类数据

categorical数据类型用于创建有限离散分类数据,该类型与nominalordinal的用法类似。

4、示例数据集

为了便于和其他算法的性能进行比对,本书绝大部分示例都使用一些公开的数据集。下面对经常使用的数据集进行说明。

(1)天气问题

天气问题的数据集很小,其数据纯属虚构,只是为了用来说明机器学习的方法。

天气问题有四个属性:天气趋势(outlook)、温度(temperature)、湿度(humidity)和刮风(windy)。还有一个目标属性(play)表示样本的类别,即在四个属性值确定的前提下得到是否可运动的结论。

天气问题仅有14个样本,表1所示为天气问题的简单形式,四个属性都采用离散的标称型来表示,而不采用连续型数值。其中,天气趋势的属性值有sunny(晴)、overcast(多云)和rainy(雨);温度属性值有hot(热)、mild(温暖)和cool(凉爽);湿度属性值有high(高)和normal(正常);刮风属性值有TRUE(真)和FALSE(假);是否可运动属性值有yes(是)和no(否)。

表1 标称属性的天气问题

机器学习的一个目标就是要找出数据的内在模式,本例中,就是要得到在什么天气情况下可运动的规则。然后,根据这个规则,对给定新的天气情况,如:

    outlook = sunny and humidity = high then play = ? 

给出是否可玩的判断。

表2所示为天气问题的稍微复杂一点的形式。温度和湿度两个属性的数据类型由离散的标称型变为连续的数值型。如果全部属性都是数值型,就称为数值属性问题。但这里不是所有属性都是数值型,因此称为混合属性问题。

显然,如果包含了数值类型的属性,学习方案可能需要对此类属性建立不等式,因此,得到包含数值测试的规则有些复杂。例如,决策规则可能是这样的:

    if outlook = sunny and humidity <= 75 then play = yes 

表2 混合属性的天气问题

(2)鸢尾花

鸢尾花(iris)是非常著名的用于模式识别的数据集,该数据集于1936年由R. A. Fisher创建,Fisher的论文也成为经典,直到今天还经常被引用。鸢尾花原始数据集位于网站http://archive.ics.uci.edu/ml/datasets/Iris

加载后,鸢尾花的类别属性放在species中,这是一个150×1的cell数组;4个属性放在meas中,这是一个150×4的double型矩阵。其中,species有三种取值,也就是鸢尾花的三个类别:setosa(山鸢尾)、versicolor(变色鸢尾)和virginica(维吉尼亚鸢尾),每个类别各有50个实例。meas定义了如下4个属性:sepal length(花萼长)、sepal width(花萼宽)、petal length(花瓣长)、petal width(花瓣宽)。这些长宽属性都是数值类型,单位为cm(厘米)。

表3摘录自鸢尾花数据集。该数据集就是要根据鸢尾花的花萼长宽和花瓣长宽数据,找出不同类别花的特点分布情况,揭示其中隐藏的规律性。

表3 鸢尾花数据集


所需代码: