课程门户-章节详情

数据挖掘技术

程军锋

1 课程简介
- 1.1 课程介绍
2 chap 1 绪论
- 2.1 1.1 数据挖掘的概念和任务
- 2.2 1.2 十大经典挖掘算法
- 2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 2.4 1.5 数据挖掘中的隐私保护
- 2.5 选读--中华人民共和国数据安全法
3 chap 2 认识数据
- 3.1 2.1 数据对象和数据属性
- 3.2 2.2 数据的统计描述
- 3.3 2.3 数据可视化
  - 3.3.1 拓展：python函数编程步骤讲解1
  - 3.3.2 拓展：python函数编程步骤讲解1
  - 3.3.3 拓展：python可视化编程讲解
  - 3.3.4 拓展：数据可视化编程实践作业
- 3.4 2.4 煤矿大数据案例应用
- 3.5 2.5数据相似性度量
- 3.6 2.5 数据可视化案例综合应用
4 chap 3 数据预处理
- 4.1 3.1 数据清洗
  - 4.1.1 拓展--scikitlearn安装与配置
  - 4.1.2 编程拓展--scikit-learn库使用讲解
- 4.2 3.2-3.3数据集成与数据规约
  - 4.2.1 拓展编程作业---数据规范化实践
- 4.3 3.4-数据规约
- 4.4 3.5数据离散化与概念分层
5 chap4 分类与预测
- 5.1 4.1-4.2 分类与预测：基本概念
- 5.2 4.3 决策树分类
  - 5.2.1 编程拓展：决策树分类及可视化
- 5.3 4.4 朴素贝叶斯分类
  - 5.3.1 编程拓展--朴素贝叶斯分类与预测
- 5.4 4.5 决策树方法的分析比较
- 5.5 4.6 KNN分类算法
  - 5.5.1 编程拓展1：KNN预测男女
  - 5.5.2 编程拓展2：KNN测试自带数据评分对比以及绘图
  - 5.5.3 编程拓展3：KNN用于分类
  - 5.5.4 编程拓展4：KNN基于历史数据预测未来
- 5.6 4.7 分类与预测算法的性能评价方法
- 5.7 4.8 高级分类算法
6 chap5 回归分析
- 6.1 5.1基本概念
- 6.2 5.2 线性回归编程案例
  - 6.2.1 编程拓展：KNN用于数据回归预测
- 6.3 5.3 逻辑回归
- 6.4 5.4 岭回归
- 6.5 5.5 CART分类回归树
- 6.6 5.6.1从线性回归到神经网络
- 6.7 5.6.2 神经网络训练+5.6.3 神经网络设计原则
- 6.8 5.5.6.4 过拟合与正则化+5.6.5+5.6.6
7 chap6 关联规则挖掘
- 7.1 6.1基本概念
- 7.2 6.2 闭项集和极大频繁项
- 7.3 6.3-6.5 Apriori算法及其应用
  - 7.3.1 编程拓展：关联规则挖掘
- 7.4 6.6关联挖掘的常见误区
- 7.5 6.7 FP树及软件实践
- 7.6 课堂实录： Apriori基础与算法
- 7.7 课堂实录：Apriori算法分析与案例应用
8 chap7 聚类分析
- 8.1 7.1 聚类概述
- 8.2 7.2 聚类的划分方法
  - 8.2.1 编程拓展1：Kmeans方法使用及可视化
  - 8.2.2 编程拓展2：Kmeans简单实战
  - 8.2.3 编程拓展3：Kmeans常见错误解析
  - 8.2.4 编程拓展4：Kmeans实现数据无监督分类
- 8.3 7.3 聚类的层次方法
- 8.4 7 聚类--7.4聚类的密度方法
  - 8.4.1 编程拓展：密度聚类
- 8.5 孤立点分析
9 案例开发与综合应用
- 9.1 分类与预测案例综合应用
- 9.2 垃圾邮件分类
- 9.3 学习行为聚类分析
10 课程实验
- 10.1 实验1：数据统计描述与可视化
- 10.2 实验2：数据预处理及规范化
- 10.3 实验3：朴素贝叶斯和决策树预测方法
- 10.4 实验4 ：分类预测方法的性能评价和评估优化方法
- 10.5 实验5：线性回归案例编程实践
- 10.6 实验6：weka软件综合案例应用
- 10.7 实验7：K均值聚类挖掘实验
- 10.8 实验8：数据挖掘综合案例分析

5.2 线性回归编程案例

1 导学（学案）
2 课件及视频
3 编程案例示范

1、熟悉线性回归函数linearegression()函数调用方法。

2、掌握样本残差平方和的计算，特定样本的参拆计算方法和代码；

3、线性回归计算的经典5步骤具体是什么？

预测美国波士顿地区房价

（一）导入数据

# 从 sklearn.datasets 导入波士顿房价数据读取器。

from sklearn.datasets import load_boston

# 从读取房价数据存储在变量 boston 中。

boston = load_boston()

# 输出数据描述。

print(boston.DESCR)

该数据共有 506 条记录，13 个特征，没有缺失值

（二）划分训练集测试集

# 从sklearn.cross_validation 导入数据分割器。

from sklearn.model_selection import train_test_split

# 导入 numpy 并重命名为 np。

import numpy as np

X = boston.data

y = boston.target

# 随机采样 25% 的数据构建测试样本，其余作为训练样本。

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.25)

# 分析回归目标值的差异。

print("The max target value is", np.max(boston.target))

print("The min target value is", np.min(boston.target))

print("The average target value is", np.mean(boston.target))

最高房价 50 ，最低房价 5，平均房价 22.53。

（三）数据标准化

# 从 sklearn.preprocessing 导入数据标准化模块。

from sklearn.preprocessing import StandardScaler

# 分别初始化对特征和目标值的标准化器。

ss_X = StandardScaler()

ss_y = StandardScaler()

# 分别对训练和测试数据的特征以及目标值进行标准化处理。

X_train = ss_X.fit_transform(X_train)

X_test = ss_X.transform(X_test)

y_train = ss_y.fit_transform(y_train.reshape(-1, 1))

y_test = ss_y.transform(y_test.reshape(-1, 1))

（四）使用线性回归模型和随机梯度下降分别对美国波士顿房价进行预测

# 从 sklearn.linear_model 导入 LinearRegression。

from sklearn.linear_model import LinearRegression

# 使用默认配置初始化线性回归器 LinearRegression。

lr = LinearRegression()

# 使用训练数据进行参数估计。

lr.fit(X_train, y_train[:,0])

# 对测试数据进行回归预测。

lr_y_predict = lr.predict(X_test)

# 从 sklearn.linear_model 导入 SGDRegressor。

from sklearn.linear_model import SGDRegressor

# 使用默认配置初始化线性回归器 SGDRegressor。

sgdr = SGDRegressor()

# 使用训练数据进行参数估计。

sgdr.fit(X_train, y_train[:,0])

# 对测试数据进行回归预测。

sgdr_y_predict = sgdr.predict(X_test)

（五）性能测评

# 使用 LinearRegression 模型自带的评估模块，并输出评估结果。

print('The value of default measurement of LinearRegression is', lr.score(X_test, y_test))

# 从 sklearn.metrics 依次导入 r2_score、mean_squared_error 以及 mean_absoluate_error 用于回归性能的评估。

from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# 使用 r2_score 模块，并输出评估结果。

print('The value of R-squared of LinearRegression is', r2_score(y_test, lr_y_predict))

# 使用 mean_squared_error 模块，并输出评估结果。

print('The mean squared error of LinearRegression is',

mean_squared_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(lr_y_predict)))

# 使用 mean_absolute_error 模块，并输出评估结果。

print('The mean absoluate error of LinearRegression is',

mean_absolute_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(lr_y_predict)))

在这里插入图片描述

# 使用 SGDRegressor 模型自带的评估模块，并输出评估结果。

print('The value of default measurement of SGDRegressor is', sgdr.score(X_test, y_test))

# 使用 r2_score 模块，并输出评估结果。

print('The value of R-squared of SGDRegressor is', r2_score(y_test, sgdr_y_predict))

# 使用 mean_squared_error 模块，并输出评估结果。

print('The mean squared error of SGDRegressor is',

mean_squared_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(sgdr_y_predict)))

# 使用 mean_absolute_error 模块，并输出评估结果。

print('The mean absoluate error of SGDRegressor is',

mean_absolute_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(sgdr_y_predict)))

在这里插入图片描述

图片预览