目录

  • 1 第一章 数据仓库概述
    • 1.1 授课安排
    • 1.2 数据仓库及其历史
      • 1.2.1 数据仓库的概念
        • 1.2.1.1 本节视频
      • 1.2.2 数据仓库特征
        • 1.2.2.1 本节视频
    • 1.3 数据仓库系统结构
      • 1.3.1 数据仓库系统的组成
        • 1.3.1.1 本节视频
      • 1.3.2 ETL
        • 1.3.2.1 本节视频
      • 1.3.3 数据仓库和数据集市的关系
      • 1.3.4 元数据及其管理
      • 1.3.5 数据集市和元数据管理视频
    • 1.4 数据仓库系统开发工具
    • 1.5 数据仓库与操作型数据库的关系
      • 1.5.1 本节视频内容
  • 2 第二章 数据仓库设计
    • 2.1 授课安排
    • 2.2 数据仓库设计概述
    • 2.3 数据仓库的规划和需求分析
    • 2.4 数据仓库的建模
    • 2.5 数据仓库的物理模型设计
    • 2.6 数据仓库的部署和维护
  • 3 第三章 OLAP技术
    • 3.1 授课安排
    • 3.2 OLAP概述
    • 3.3 OLAP的多维数据模型
    • 3.4 OLAP实现
  • 4 第四章 数据
    • 4.1 课程资料
  • 5 第五章 数据挖掘概述
    • 5.1 授课安排
    • 5.2 什么是数据挖掘?
    • 5.3 数据挖掘系统
    • 5.4 视频
    • 5.5 数据挖掘过程
  • 6 第六章 关联分析
    • 6.1 授课安排
    • 6.2 关联分析概念
    • 6.3 Apriori算法
    • 6.4 FP-growth树
    • 6.5 多层关联规则
    • 6.6 【扩充知识】机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)
  • 7 第七章 序列模式挖掘
    • 7.1 序列模式挖掘概述
    • 7.2 AprioriAll算法
    • 7.3 AprioriSome算法
    • 7.4 FreeSpan算法
    • 7.5 PrefixSpan算法
  • 8 第八章 聚类分析
    • 8.1 聚类概述
  • 9 分类算法
    • 9.1 课件
  • 10 实验1 python基础
    • 10.1 讲解文本内容
    • 10.2 课程PDF
    • 10.3 实验代码
    • 10.4 实验报告封皮
  • 11 实验2-python
    • 11.1 讲解文本内容
    • 11.2 实验代码
    • 11.3 实验报告封面
  • 12 实验3--python
    • 12.1 讲解文本内容
    • 12.2 实验代码
    • 12.3 实验报告封面
  • 13 实验4--python
    • 13.1 讲解文本内容
    • 13.2 21.1实验代码
    • 13.3 实验内容2
    • 13.4 实验内容3
    • 13.5 实验报告封面
  • 14 实验5--python
    • 14.1 文本内容-NumPy模块
    • 14.2 第三方可视化数据分析图表
    • 14.3 数据
    • 14.4 思考题
    • 14.5 实验报告封面
  • 15 实验6--python
    • 15.1 实验 NumPy矩阵的基本操作
    • 15.2 实验 关联规则算法
    • 15.3 实验 商品零售购物篮分析
    • 15.4 实验报告封面
  • 16 实验7--python
    • 16.1 实验1 用关联规则分析方法推荐电影
    • 16.2 实验2 FP-growth算法
    • 16.3 实验3 教育平台的线上课程推荐策略
    • 16.4 实验报告封面
  • 17 实验8-python
    • 17.1 实验1 购物车分析
    • 17.2 实验2 基于关联规则的文本分析
  • 18 实验9--python
    • 18.1 实验1 聚类分析
    • 18.2 实验2 航空公司客户价值分析
    • 18.3 实验3 运输车辆安全驾驶行为分析
    • 18.4 实验报告封面
数据挖掘系统

数据挖掘系统

一、数据挖掘系统的结构

二、数据挖掘系统的设计

1. 数据挖掘系统怎样与数据源系统的集成

*(1)不耦合:是指数据挖掘系统不利用数据源系统的任何功能;*

(2)松散耦合:是指利用数据源系统的某些功能。

*(3)半紧密耦合:是指将数据挖掘系统连接到数据源系统,在数据源系统中实现并存储一些基本数据挖掘计算和中间结果;*

(4)紧密耦合:是指数据挖掘系统平滑地集成到数据源系统,数据挖掘系统作为数据源系统的一个功能组件,数据挖掘任务根据数据源系统的功能进行优化与实现。

2、数据挖掘系统指定目标数据集

指定目标数据集就是说明与数据挖掘任务相关的数据、用户感兴趣的数据或者要进行挖掘的数据。 

3、数据挖掘系统指定数据挖掘任务

指定数据挖掘任务就是说明用户感兴趣的知识类型或者要挖掘得到的知识类型。

目前,知识类型包括特征规则、比较规则、分类规则、关联规则、聚类规则和预测规则等。 

4、数据挖掘系统的解释与评价模式

一个数据挖掘系统可以挖掘出数以千计的模式,并非所有的模式都是用户感兴趣的。

因此数据挖掘系统应该提供帮助用户评估模式的功能,目前常用的手段是通过用户设置兴趣度阈值来选择感兴趣的模式,没有兴趣度度量,挖掘出来的有用模式很可能会淹没在用户不感兴趣的模式中。

5、数据挖掘系统利用领域知识

在数据挖掘中,领域知识可以指导数据挖掘过程及模式的评估。

最多的领域知识是概念分层,利用它可以进行数据概化和数据归约,提高挖掘效率。领域知识一般由系统用户、领域专家提供。 

6、数据挖掘怎样呈现知识

数据挖掘的结果需要呈现给用户,因此数据挖掘系统应该提供多种直观、易于理解的知识表示功能。

通常采用图、表等可视化方式将结果提交给用户,有时还需要提供交互功能,便于用户指导进一步挖掘。

三、常用的数据挖掘系统及其发展

1、常见的数据挖掘系统

目前市场上有多种较为成熟的数据挖掘系统(产品)供人们用于数据挖掘任务设计,归纳起来,分为以下三类:

*一般分析目的数据挖掘系统*、 针对特定功能或产业的数据挖掘系统*、 整合决策支持/OLAP/数据挖掘的大型分析系统。

2、数据挖掘系统的发展