课程门户-章节详情

数据挖掘

郭亚洁

1 课程简介
- 1.1 课程介绍
2 绪论
- 2.1 1.1 数据挖掘的概念和任务
- 2.2 1.2 十大经典挖掘算法
- 2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 2.4 1.5 数据挖掘中的隐私保护
- 2.5 选读--中华人民共和国数据安全法
3 认识数据
- 3.1 2.1 数据对象和数据属性
- 3.2 2.2 数据的统计描述
- 3.3 2.3 数据可视化
  - 3.3.1 拓展：python函数编程步骤讲解1
  - 3.3.2 拓展：python函数编程步骤讲解1
  - 3.3.3 拓展：python可视化编程讲解
  - 3.3.4 拓展：数据可视化编程实践作业
- 3.4 2.4 煤矿大数据案例应用
- 3.5 2.5数据相似性度量
- 3.6 2.5 数据可视化案例综合应用
4 数据预处理
- 4.1 3.1 数据清洗
  - 4.1.1 拓展--scikitlearn安装与配置
  - 4.1.2 编程拓展--scikit-learn库使用讲解
- 4.2 3.2-3.3数据集成与数据规约
  - 4.2.1 拓展编程作业---数据规范化实践
- 4.3 3.4-数据规约
- 4.4 3.5数据离散化与概念分层
5 关联规则挖掘
- 5.1 4.1基本概念
- 5.2 4.2 闭项集和极大频繁项
- 5.3 4.3-4.5 Apriori算法及其应用
  - 5.3.1 编程拓展：关联规则挖掘
- 5.4 4.6关联挖掘的常见误区
- 5.5 4.7 FP树及软件实践
- 5.6 课堂实录： Apriori基础与算法
- 5.7 课堂实录：Apriori算法分析与案例应用
6 聚类分析
- 6.1 5.1 聚类概述
- 6.2 5.2 聚类的划分方法
  - 6.2.1 编程拓展1：Kmeans方法使用及可视化
  - 6.2.2 编程拓展2：Kmeans简单实战
  - 6.2.3 编程拓展3：Kmeans常见错误解析
  - 6.2.4 编程拓展4：Kmeans实现数据无监督分类
- 6.3 5.3 聚类的层次方法
- 6.4 5.4聚类的密度方法
  - 6.4.1 编程拓展：密度聚类
- 6.5 孤立点分析
7 分类与预测
- 7.1 6.1-6.2 分类与预测：基本概念
- 7.2 6.3 决策树分类
  - 7.2.1 编程拓展：决策树分类及可视化
- 7.3 6.4 朴素贝叶斯分类
  - 7.3.1 编程拓展--朴素贝叶斯分类与预测
- 7.4 6.5 决策树方法的分析比较
- 7.5 6.6 KNN分类算法
  - 7.5.1 编程拓展1：KNN预测男女
  - 7.5.2 编程拓展2：KNN测试自带数据评分对比以及绘图
  - 7.5.3 编程拓展3：KNN用于分类
  - 7.5.4 编程拓展4：KNN基于历史数据预测未来
- 7.6 6.7 分类与预测算法的性能评价方法
- 7.7 6.8 高级分类算法
8 回归分析
- 8.1 7.1基本概念
- 8.2 7.2 线性回归编程案例
  - 8.2.1 编程拓展：KNN用于数据回归预测
- 8.3 7.3 逻辑回归
- 8.4 7.4 岭回归
- 8.5 7.5 CART分类回归树
- 8.6 7.6.1从线性回归到神经网络
- 8.7 7.6.2 神经网络训练+7.6.3 神经网络设计原则
- 8.8 7.6.4 过拟合与正则化+7.6.5+7.6.6
9 案例开发与综合应用
- 9.1 分类与预测案例综合应用
- 9.2 垃圾邮件分类
- 9.3 学习行为聚类分析
10 课程实验
- 10.1 实验1：数据统计描述与可视化
- 10.2 实验2：数据预处理及规范化
- 10.3 实验3：朴素贝叶斯和决策树预测方法
- 10.4 实验4 ：分类预测方法的性能评价和评估优化方法
- 10.5 实验5：线性回归案例编程实践
- 10.6 实验6：weka软件综合案例应用
- 10.7 实验7：K均值聚类挖掘实验
- 10.8 实验8：数据挖掘综合案例分析

7.3 逻辑回归

1 导学（学案）
2 课件及视频
3 软件编程案例示范
4 根据三围预测性别编程

1、逻辑回归命名的由来是什么，为什么叫“逻辑”回归。

2、逻辑回归是线性回归方法，还是分类方法。

3、逻辑回归与第4章学习的决策树、贝叶斯方法相比，在样本集上有什么不同？

4、逻辑回归的程序编写方法。

数据以iris数据集为例，先数据加载和处理，获取setosa、virginica 两个分类的数据、转换0和1、准备做逻辑回归。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn import metrics
from sklearn.model_selection import train_test_split
import seaborn as sns

iris=pd.read_csv('iris.csv')
iris=iris[(iris['Species']=='setosa') | (iris['Species']=='virginica')]
print(iris.head(5))
iris['Species'] =iris['Species'].replace(['setosa', 'virginica'], [0, 1])
print(iris.tail(5))
X=iris[['Sepal.Length','Sepal.Width','Petal.Length','Petal.Width' ]].values
Y=iris['Species'].values
print(X[0:5])
print(Y[0:5])

拆分数据集(7:3为拆分比例)为训练集和测试集，以及数据的标准化：

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1, stratify=Y)

sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

训练模型：

lr = LogisticRegression(C=100.0, random_state=1, solver='lbfgs', multi_class='ovr')
lr.fit(X_train_std, Y_train)

模型预测，预测测试数据集的自变量，得到预测结果：

Y_predict = lr.predict(X_test_std)
print(Y_predict)
print(Y_test)

模型评估，混淆矩阵：

matrix_of_confusion = metrics.confusion_matrix(Y_test, Y_predict)
fig, ax = plt.subplots(figsize = (10, 6))
sns.heatmap(matrix_of_confusion, annot=True ,fmt='g');
ax.xaxis.set_label_position("top")
plt.title('Confusion matrix', y=1.1)
plt.ylabel('Actual class')
plt.xlabel('Predicted class')
plt.show();

模型评估(precision、 recall、F1、 accuracy):

print("逻辑回归   Recall  :%.3f" %metrics.recall_score(Y_test, Y_predict))
print("逻辑回归 precision :%.3f" %metrics.precision_score(Y_test, Y_predict))
print("逻辑回归     F1    :%.3f" %metrics.f1_score(Y_test, Y_predict))
print("逻辑回归  Accuracy :%.3f" %metrics.accuracy_score(Y_test, Y_predict))

图片预览