课程门户-章节详情

数据挖掘技术

程军锋

1 课程简介
- 1.1 课程介绍
2 chap 1 绪论
- 2.1 1.1 数据挖掘的概念和任务
- 2.2 1.2 十大经典挖掘算法
- 2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 2.4 1.5 数据挖掘中的隐私保护
- 2.5 选读--中华人民共和国数据安全法
3 chap 2 认识数据
- 3.1 2.1 数据对象和数据属性
- 3.2 2.2 数据的统计描述
- 3.3 2.3 数据可视化
  - 3.3.1 拓展：python函数编程步骤讲解1
  - 3.3.2 拓展：python函数编程步骤讲解1
  - 3.3.3 拓展：python可视化编程讲解
  - 3.3.4 拓展：数据可视化编程实践作业
- 3.4 2.4 煤矿大数据案例应用
- 3.5 2.5数据相似性度量
- 3.6 2.5 数据可视化案例综合应用
4 chap 3 数据预处理
- 4.1 3.1 数据清洗
  - 4.1.1 拓展--scikitlearn安装与配置
  - 4.1.2 编程拓展--scikit-learn库使用讲解
- 4.2 3.2-3.3数据集成与数据规约
  - 4.2.1 拓展编程作业---数据规范化实践
- 4.3 3.4-数据规约
- 4.4 3.5数据离散化与概念分层
5 chap4 分类与预测
- 5.1 4.1-4.2 分类与预测：基本概念
- 5.2 4.3 决策树分类
  - 5.2.1 编程拓展：决策树分类及可视化
- 5.3 4.4 朴素贝叶斯分类
  - 5.3.1 编程拓展--朴素贝叶斯分类与预测
- 5.4 4.5 决策树方法的分析比较
- 5.5 4.6 KNN分类算法
  - 5.5.1 编程拓展1：KNN预测男女
  - 5.5.2 编程拓展2：KNN测试自带数据评分对比以及绘图
  - 5.5.3 编程拓展3：KNN用于分类
  - 5.5.4 编程拓展4：KNN基于历史数据预测未来
- 5.6 4.7 分类与预测算法的性能评价方法
- 5.7 4.8 高级分类算法
6 chap5 回归分析
- 6.1 5.1基本概念
- 6.2 5.2 线性回归编程案例
  - 6.2.1 编程拓展：KNN用于数据回归预测
- 6.3 5.3 逻辑回归
- 6.4 5.4 岭回归
- 6.5 5.5 CART分类回归树
- 6.6 5.6.1从线性回归到神经网络
- 6.7 5.6.2 神经网络训练+5.6.3 神经网络设计原则
- 6.8 5.5.6.4 过拟合与正则化+5.6.5+5.6.6
7 chap6 关联规则挖掘
- 7.1 6.1基本概念
- 7.2 6.2 闭项集和极大频繁项
- 7.3 6.3-6.5 Apriori算法及其应用
  - 7.3.1 编程拓展：关联规则挖掘
- 7.4 6.6关联挖掘的常见误区
- 7.5 6.7 FP树及软件实践
- 7.6 课堂实录： Apriori基础与算法
- 7.7 课堂实录：Apriori算法分析与案例应用
8 chap7 聚类分析
- 8.1 7.1 聚类概述
- 8.2 7.2 聚类的划分方法
  - 8.2.1 编程拓展1：Kmeans方法使用及可视化
  - 8.2.2 编程拓展2：Kmeans简单实战
  - 8.2.3 编程拓展3：Kmeans常见错误解析
  - 8.2.4 编程拓展4：Kmeans实现数据无监督分类
- 8.3 7.3 聚类的层次方法
- 8.4 7 聚类--7.4聚类的密度方法
  - 8.4.1 编程拓展：密度聚类
- 8.5 孤立点分析
9 案例开发与综合应用
- 9.1 分类与预测案例综合应用
- 9.2 垃圾邮件分类
- 9.3 学习行为聚类分析
10 课程实验
- 10.1 实验1：数据统计描述与可视化
- 10.2 实验2：数据预处理及规范化
- 10.3 实验3：朴素贝叶斯和决策树预测方法
- 10.4 实验4 ：分类预测方法的性能评价和评估优化方法
- 10.5 实验5：线性回归案例编程实践
- 10.6 实验6：weka软件综合案例应用
- 10.7 实验7：K均值聚类挖掘实验
- 10.8 实验8：数据挖掘综合案例分析

4.3 决策树分类

1 导学（学案）
2 课件及视频
3 决策树编程拓展（...

1、什么是决策树？

2、决策树的节点可以分为决策节点和叶子节点，决策节点的分支数取决于什么？

3、决策树适合离散类型的数据挖掘，是否可以用于连续属性的挖掘？

4、ID3算法是如何进行决策树构造的，其基本步骤是什么？

1、iris数据集的决策树构造

from sklearn.datasets import load_iris

from sklearn.tree import DecisionTreeClassifier

from sklearn import tree

import matplotlib.pyplot as plt

iris = load_iris()

print("feature names", iris.feature_names)

print("target names", iris.target_names)

X = iris.data[:, 2:]

y = iris.target

print("data shape", iris.data.shape)

print("X shape", X.shape)

X = iris.data[:, 2:]

y = iris.target

本案例每个样本只选取后两个特征"petal length"和"petal width"

（通过切片方式iris.data[:, 2:]）。

print("data shape", iris.data.shape)

print("X shape", X.shape)

tree_clf = DecisionTreeClassifier(max_depth=2)

tree_clf.fit(X, y)

创建决策树并拟合，这里设置了最大深度为2，限制决策树的高度最多为2。

绘制决策树图片。sklearn提供了plot_tree的接口。

fig = plt.figure(figsize=(25,20))

_ = tree.plot_tree(

tree_clf,

feature_names=iris.feature_names[2:],

class_names=iris.target_names,

filled=True

)

# Save picture

fig.savefig("decistion_tree.png")

特征重要性的源码实现

在sklearn，特征重要性的计算核心函数是cpython文件_tree.pyx的的compute_feature_importances。

dt = DecisionTreeClassifier()

dt.fit(X, y)

importance = dt.feature_importances_

feature_names = iris.feature_names

df = pd.DataFrame({'Feature': feature_names, 'Importance': importance})

df = df.sort_values('Importance', ascending=False)

print(df)

2、wine数据集的决策树构造

from sklearn import tree

import pandas as pd

from sklearn.datasets import load_wine #红酒数据集

from sklearn.model_selection import train_test_split

wine = load_wine()

print(wine.data)

print(wine.data.shape)

print(wine.target)

print(wine.feature_names)

print(wine.target_names)

df = pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1) #将特征和标签合并，axis=0为横向合并

print(df)

# 划分测试集和训练集

xtrain,xtest,ytrain,ytest = train_test_split(wine.data,wine.target,test_size=0.3)

# 创建决策树

clf = tree.DecisionTreeClassifier(criterion='entropy',random_state=42,splitter='random',max_depth=3,min_samples_leaf=10,min_samples_split=10) #实例化

#训练

clf = clf.fit(xtrain,ytrain)

#为测试集打分,分数每次运行会不一样，原因有两个：测试集和训练集划分不确定；决策树分类器的random_state参数影响

result = clf.score(xtest,ytest)

print('测试集打分',result)

print('训练集打分',clf.score(xtrain,ytrain))

#可视化

from sklearn.tree import export_graphviz

import pydot

import graphviz #需要自己导入 pip install graphviz

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

dot = tree.export_graphviz(clf

,feature_names=feature_name

,class_names=['琴酒','雪莉','贝尔摩德']

,filled=True #上色

,rounded=True) #圆角

graph = graphviz.Source(dot)

print(graph)

#重要性

importance = clf.feature_importances_

feature_importance = [(feature,importance.round(3)) for feature,importance in zip(feature_name,importance)]

#排序

feature_importance = sorted(feature_importance,key=lambda x :x[1],reverse=True)

#对应进行打印

[print('variable:{:20} importance: {}'.format(*pair)) for pair in feature_importance]

#绘制超参数曲线

import matplotlib.pyplot as plt

test = []

for i in range(100):

clf = tree.DecisionTreeClassifier(max_depth=2

# ,criterion='gini'

,criterion='entropy'

,random_state=i

,splitter='random')

clf.fit(xtrain,ytrain)

score = clf.score(xtest,ytest)

test.append(score)

plt.plot(range(100),test)

plt.xlabel('max_depth')

plt.ylabel('score')

plt.show()

特征重要性的源码实现

图片预览