课程门户-章节详情

数据挖掘技术

程军锋

1 课程简介
- 1.1 课程介绍
2 chap 1 绪论
- 2.1 1.1 数据挖掘的概念和任务
- 2.2 1.2 十大经典挖掘算法
- 2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 2.4 1.5 数据挖掘中的隐私保护
- 2.5 选读--中华人民共和国数据安全法
3 chap 2 认识数据
- 3.1 2.1 数据对象和数据属性
- 3.2 2.2 数据的统计描述
- 3.3 2.3 数据可视化
  - 3.3.1 拓展：python函数编程步骤讲解1
  - 3.3.2 拓展：python函数编程步骤讲解1
  - 3.3.3 拓展：python可视化编程讲解
  - 3.3.4 拓展：数据可视化编程实践作业
- 3.4 2.4 煤矿大数据案例应用
- 3.5 2.5数据相似性度量
- 3.6 2.5 数据可视化案例综合应用
4 chap 3 数据预处理
- 4.1 3.1 数据清洗
  - 4.1.1 拓展--scikitlearn安装与配置
  - 4.1.2 编程拓展--scikit-learn库使用讲解
- 4.2 3.2-3.3数据集成与数据规约
  - 4.2.1 拓展编程作业---数据规范化实践
- 4.3 3.4-数据规约
- 4.4 3.5数据离散化与概念分层
5 chap4 分类与预测
- 5.1 4.1-4.2 分类与预测：基本概念
- 5.2 4.3 决策树分类
  - 5.2.1 编程拓展：决策树分类及可视化
- 5.3 4.4 朴素贝叶斯分类
  - 5.3.1 编程拓展--朴素贝叶斯分类与预测
- 5.4 4.5 决策树方法的分析比较
- 5.5 4.6 KNN分类算法
  - 5.5.1 编程拓展1：KNN预测男女
  - 5.5.2 编程拓展2：KNN测试自带数据评分对比以及绘图
  - 5.5.3 编程拓展3：KNN用于分类
  - 5.5.4 编程拓展4：KNN基于历史数据预测未来
- 5.6 4.7 分类与预测算法的性能评价方法
- 5.7 4.8 高级分类算法
6 chap5 回归分析
- 6.1 5.1基本概念
- 6.2 5.2 线性回归编程案例
  - 6.2.1 编程拓展：KNN用于数据回归预测
- 6.3 5.3 逻辑回归
- 6.4 5.4 岭回归
- 6.5 5.5 CART分类回归树
- 6.6 5.6.1从线性回归到神经网络
- 6.7 5.6.2 神经网络训练+5.6.3 神经网络设计原则
- 6.8 5.5.6.4 过拟合与正则化+5.6.5+5.6.6
7 chap6 关联规则挖掘
- 7.1 6.1基本概念
- 7.2 6.2 闭项集和极大频繁项
- 7.3 6.3-6.5 Apriori算法及其应用
  - 7.3.1 编程拓展：关联规则挖掘
- 7.4 6.6关联挖掘的常见误区
- 7.5 6.7 FP树及软件实践
- 7.6 课堂实录： Apriori基础与算法
- 7.7 课堂实录：Apriori算法分析与案例应用
8 chap7 聚类分析
- 8.1 7.1 聚类概述
- 8.2 7.2 聚类的划分方法
  - 8.2.1 编程拓展1：Kmeans方法使用及可视化
  - 8.2.2 编程拓展2：Kmeans简单实战
  - 8.2.3 编程拓展3：Kmeans常见错误解析
  - 8.2.4 编程拓展4：Kmeans实现数据无监督分类
- 8.3 7.3 聚类的层次方法
- 8.4 7 聚类--7.4聚类的密度方法
  - 8.4.1 编程拓展：密度聚类
- 8.5 孤立点分析
9 案例开发与综合应用
- 9.1 分类与预测案例综合应用
- 9.2 垃圾邮件分类
- 9.3 学习行为聚类分析
10 课程实验
- 10.1 实验1：数据统计描述与可视化
- 10.2 实验2：数据预处理及规范化
- 10.3 实验3：朴素贝叶斯和决策树预测方法
- 10.4 实验4 ：分类预测方法的性能评价和评估优化方法
- 10.5 实验5：线性回归案例编程实践
- 10.6 实验6：weka软件综合案例应用
- 10.7 实验7：K均值聚类挖掘实验
- 10.8 实验8：数据挖掘综合案例分析

3.5数据离散化与概念分层

1 课件及视频
2 拓展阅读
3 预处理案例编程示范

matplotlib_cmap离散化取hsv及完整示例

【你值得拥有】matplotlib_cmap离散化取hsv及完整示例 - Heywhale.com

https://www.heywhale.com/mw/project/5dbabdf6080dc300371ea40a

一、数据预处理的基本步骤

1. 数据读取和观察

在进行数据预处理之前，首先需要正确地读取数据，并对数据进行观察和分析。

1.1 数据读取

使用Python中的pandas库可以方便地读取不同格式的数据，例如CSV、Excel、JSON等。以读取CSV数据为例，可以使用pandas中的read_csv函数

import pandas as pd

data = pd.read_csv('data.csv')

1.2 数据观察和分析

读取数据后，需要对数据进行观察和分析，找出数据中的问题或异常，为后续的预处理做好准备。可以使用Pandas库提供的各种函数来实现常用的数据探索和分析操作，例如：

data.head()：查看数据的前几行
data.tail()：查看数据的后几行
data.shape：查看数据的行数和列数
data.columns：查看数据的列名
data.dtypes：查看数据每一列的数据类型
data.describe()：对数据的数值型变量进行统计描述（如均值、标准差等）
data.isnull().sum()：查看数据中每一列的缺失值数量

通过这些函数，可以初步认识数据，发现其中的问题和异常。

2. 数据清洗

数据清洗是指通过一系列操作，将数据中的错误、缺失、重复或不一致的内容进行处理或移除，使数据符合分析使用的要求。

2.1 清除重复值

重复值是指数据集中有完全相同的一行或多行，这些数据可能是误操作或数据收集不当导致的。可以使用Pandas库中的drop_duplicates函数轻松清除重复值：

data = data.drop_duplicates()

2.2 处理缺失值

缺失值是指数据集中某些行或列中缺少具体数值的情况，这是常见的数据采集或处理过程中出现的问题。缺失值的处理方法通常有以下几种：

删除缺失值所在的行或列。这种方法在缺失值较少时适用，但会导致数据集变小，可能会影响后续的数据分析结果。
填补缺失值。可以使用平均值、众数、中位数等方法来填充缺失值。Pandas库提供了fillna函数，可以方便地进行缺失值填补操作：

data['col1'] = data['col1'].fillna(data['col1'].mean())

2.3 处理异常值

异常值是指数据中明显偏离正常取值范围的数值，可能是数据采集或处理过程中出现的问题。异常值处理通常有以下几种方法：

删除异常值所在的行或列。这种方法在异常值较少时适用，但会导致数据集变小。
使用合适的方法替换异常值。可以使用中位数、均值或截尾等方法来替换异常值。

3. 特征工程

特征工程是指对数据进行一系列变换和处理，使得数据更好地表达问题，更适合进行建模和分析。

3.1 特征提取

特征提取是指从原始数据中抽取出适合建模的特征，例如从文本数据中提取词频向量，从图像数据中提取图像特征等。可以使用Pandas库和NumPy库提供的函数和方法进行特征提取和特征变换。

3.2 特征选择

特征选择是指从原始特征中选择合适的特征，去除冗余或无用的特征，提高建模效率和精度。常见的特征选择方法包括：

相关性分析：使用相关性矩阵或相关性系数矩阵来选择相关性较强的特征。
统计检验：使用卡方检验、t检验等方法来选择与目标变量相关性较强的特征。
嵌入式方法：在模型训练过程中自动选择特征。

4. 示例说明

下面通过两个示例说明如何进行数据预处理。

示例1：处理鸢尾花数据集

鸢尾花数据集是一个常用的分类问题数据集，包含150个数据样本，分为三个亚种。可以使用Pandas库的read_csv函数读取数据，并使用sklearn库的train_test_split函数划分训练集和测试集：

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

data = load_iris()
X, y = pd.DataFrame(data.data, columns=data.feature_names), pd.Series(data.target)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

接下来可以对数据进行基本处理，例如删除重复值、处理缺失值等，可以使用Pandas库提供的函数实现：

# 删除重复值
X_train = X_train.drop_duplicates()

# 处理缺失值
X_train['petal width (cm)'] = X_train['petal width (cm)'].fillna(X_train['petal width (cm)'].mean())

处理完成后，可以进行特征工程，例如使用PCA进行降维：

rom sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)

示例2：处理红酒质量数据集

红酒质量数据集是一个常用的回归问题数据集，包含1599个数据样本和12个特征。可以使用Pandas库的read_csv函数读取数据：

wine_data = pd.read_csv('winequality-red.csv')

数据集中存在一些异常值和缺失值，可以使用Pandas库提供的函数对数据进行清理：

# 处理异常值
wine_data = wine_data[wine_data['free sulfur dioxide'] < 1000]

# 处理缺失值
wine_data['pH'] = wine_data['pH'].fillna(wine_data['pH'].mean())

清理完成后，可以进行特征选择，例如使用相关性矩阵筛选出与目标变量相关性较强的特征：

# 计算相关性矩阵
corr_matrix = wine_data.corr()

# 选择相关性较强的特征
selected_features = corr_matrix['quality'][corr_matrix['quality'].abs() > 0.1].index.tolist()

最后可以使用清理和选择后的特征进行建模和分析。