数据挖掘

郭亚洁

1 课程简介
- 1.1 课程介绍
2 绪论
- 2.1 1.1 数据挖掘的概念和任务
- 2.2 1.2 十大经典挖掘算法
- 2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 2.4 1.5 数据挖掘中的隐私保护
- 2.5 选读--中华人民共和国数据安全法
3 认识数据
- 3.1 2.1 数据对象和数据属性
- 3.2 2.2 数据的统计描述
- 3.3 2.3 数据可视化
  - 3.3.1 拓展：python函数编程步骤讲解1
  - 3.3.2 拓展：python函数编程步骤讲解1
  - 3.3.3 拓展：python可视化编程讲解
  - 3.3.4 拓展：数据可视化编程实践作业
- 3.4 2.4 煤矿大数据案例应用
- 3.5 2.5数据相似性度量
- 3.6 2.5 数据可视化案例综合应用
4 数据预处理
- 4.1 3.1 数据清洗
  - 4.1.1 拓展--scikitlearn安装与配置
  - 4.1.2 编程拓展--scikit-learn库使用讲解
- 4.2 3.2-3.3数据集成与数据规约
  - 4.2.1 拓展编程作业---数据规范化实践
- 4.3 3.4-数据规约
- 4.4 3.5数据离散化与概念分层
5 关联规则挖掘
- 5.1 4.1基本概念
- 5.2 4.2 闭项集和极大频繁项
- 5.3 4.3-4.5 Apriori算法及其应用
  - 5.3.1 编程拓展：关联规则挖掘
- 5.4 4.6关联挖掘的常见误区
- 5.5 4.7 FP树及软件实践
- 5.6 课堂实录： Apriori基础与算法
- 5.7 课堂实录：Apriori算法分析与案例应用
6 聚类分析
- 6.1 5.1 聚类概述
- 6.2 5.2 聚类的划分方法
  - 6.2.1 编程拓展1：Kmeans方法使用及可视化
  - 6.2.2 编程拓展2：Kmeans简单实战
  - 6.2.3 编程拓展3：Kmeans常见错误解析
  - 6.2.4 编程拓展4：Kmeans实现数据无监督分类
- 6.3 5.3 聚类的层次方法
- 6.4 5.4聚类的密度方法
  - 6.4.1 编程拓展：密度聚类
- 6.5 孤立点分析
7 分类与预测
- 7.1 6.1-6.2 分类与预测：基本概念
- 7.2 6.3 决策树分类
  - 7.2.1 编程拓展：决策树分类及可视化
- 7.3 6.4 朴素贝叶斯分类
  - 7.3.1 编程拓展--朴素贝叶斯分类与预测
- 7.4 6.5 决策树方法的分析比较
- 7.5 6.6 KNN分类算法
  - 7.5.1 编程拓展1：KNN预测男女
  - 7.5.2 编程拓展2：KNN测试自带数据评分对比以及绘图
  - 7.5.3 编程拓展3：KNN用于分类
  - 7.5.4 编程拓展4：KNN基于历史数据预测未来
- 7.6 6.7 分类与预测算法的性能评价方法
- 7.7 6.8 高级分类算法
8 回归分析
- 8.1 7.1基本概念
- 8.2 7.2 线性回归编程案例
  - 8.2.1 编程拓展：KNN用于数据回归预测
- 8.3 7.3 逻辑回归
- 8.4 7.4 岭回归
- 8.5 7.5 CART分类回归树
- 8.6 7.6.1从线性回归到神经网络
- 8.7 7.6.2 神经网络训练+7.6.3 神经网络设计原则
- 8.8 7.6.4 过拟合与正则化+7.6.5+7.6.6
9 案例开发与综合应用
- 9.1 分类与预测案例综合应用
- 9.2 垃圾邮件分类
- 9.3 学习行为聚类分析
10 课程实验
- 10.1 实验1：数据统计描述与可视化
- 10.2 实验2：数据预处理及规范化
- 10.3 实验3：朴素贝叶斯和决策树预测方法
- 10.4 实验4 ：分类预测方法的性能评价和评估优化方法
- 10.5 实验5：线性回归案例编程实践
- 10.6 实验6：weka软件综合案例应用
- 10.7 实验7：K均值聚类挖掘实验
- 10.8 实验8：数据挖掘综合案例分析

7.6.1从线性回归到神经网络

1 导学（学案）
2 课件及视频
3 拓展阅读--激励函...
4 拓展：多层感知机...

1、什么是激励函数，激励函数是线性变化还是非线性变换？

2、阐述神经网络实现分类的工作原理？

3、神经网络中的单层感知机模型隐层有几层？

4、会画全连接模式下的浅层神经网络模型。

一、什么是激活函数

在神经元中，输入的input经过一系列加权求和后作用于另一个函数，这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型，激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。在人工神经网络中，一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。

二、激活函数的作用

激活函数的主要作用是改变之前数据的线性关系，如果网络中全部是线性变换，则多层网络可以通过矩阵变换，直接转换成一层神经网络。所以激活函数的存在，使得神经网络的“多层”有了实际的意义，使网络更加强大，增加网络的能力，使它可以学习复杂的事物，复杂的数据，以及表示输入输出之间非线性的复杂的任意函数映射。

激活函数的另一个重要的作用是执行数据的归一化，将输入数据映射到某个范围内，再往下传递，这样做的好处是可以限制数据的扩张，防止数据过大导致的溢出风险。

大多是激活函数都是非线性的，因为如果使用线性的激活函数，那么输入x跟输出y之间的关系为线性的，便可以不需要网络结构，直接使用线性组合便可以。只有在输出层极小可能使用线性激活函数，在隐含层都使用非线性激活函数。

三、常见的激活函数

Sigmoid函数

Sigmoid函数也叫Logistic函数，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。函数的表达式如下：

图像类似一个S形曲线

优点：

1.Sigmoid函数输出值限定在0到1，因此它对每个神经元的输出进行了归一化；

2.用于将预测概率作为输出的模型。由于概率的取值范围是0到1，因此 Sigmoid 函数非常合适；

不足：

1.如果x取值绝对值非常大，输出会饱和，表现为函数图像的两端都很平，此时对输入的变化不敏感。

2.其导数值很大或者很小的时候都趋近于0，反向传播求导时，很容易梯度消失（权重不再更新）。

3.因为是指数形式，计算复杂度较高。
4.输出不是0均值，会导致后层的神经元的输入是非0均值的信号，会对梯度产生影响。

Tanh/双曲正切激活函数

Tanh激活函数与Sigmoid函数类似，但Tanh函数将其压缩至-1到1的区间内。输出以零为中心。Tanh与sigmoid的关系如下：tanh(x)=2sigmoid(2x)−1

函数表达式：

与sigmoid函数相比，tanhx是0均值的。但是其导数在两端也存在饱和的现象，导致反向传播无法进行。

ReLU激活函数

ReLU函数是一种分段线性函数，其弥补了sigmoid函数以及tanh函数的梯度消失问题，在目前的深度神经网络中被广泛使用。ReLU函数本质上是一个斜坡（ramp）函数，公式及函数图像如下：

对比sigmoid，tanh函数，relu有明显的优点：

1.x>0时，不会有梯度消息的现象，反向传播可以顺利进行。

2.没有指数运行，计算简单。

3.收敛速度比上面的激活函数要快。

不足：

和Sigmoid函数类似，ReLU函数的输出不以零为中心，ReLU函数的输出为0或正数，给后一层的神经网络引入偏置偏移。

其主要缺点是Dead ReLU Problem(神经元坏死现象)。如果参数初始化不当，或者学习率太高导致在训练过程中参数更新太大，当x<0时候，梯度为0，那么这个神经元以及后面的神经元梯度一直为0，所有的数据将不再被更新。

Leaky ReLU激活函数

为了解决ReLU激活函数中的梯度消失问题，当x<0时，我们使用LeakyReLU函数试图修复deadReLU问题。函数表达式以及图像如下：

其中γ是一个很小的数，如0.1,0.01等等。这里，令γ=0.1进行展示：

Leaky ReLU通过把x的非常小的线性分量给予负输入来调整负值的零梯度问题，当x<0时，它得到0.1的正梯度。该函数一定程度上缓解了dead ReLU问题。

尽管Leaky ReLU具备ReLU激活函数的所有特征（如计算高效、快速收敛、在正区域内不会饱和），但并不能完全证明在实际操作中Leaky ReLU总是比ReLU更好。

转载.原文链接：https://blog.csdn.net/bitcarmanlee/article/details/114644930

多层感知器回归器。

该模型使用 LBFGS 或随机梯度下降优化平方误差。

class sklearn.neural_network.MLPRegressor(hidden_layer_sizes=(100,), activation='relu', *, 
solver='adam', alpha=0.0001, batch_size='auto', learning_rate='constant', learning_rate_init=0.001, 
power_t=0.5, max_iter=200, shuffle=True, random_state=None, tol=0.0001, verbose=False, 
warm_start=False, momentum=0.9, nesterovs_momentum=True, early_stopping=False, 
validation_fraction=0.1, beta_1=0.9, beta_2=0.999, epsilon=1e-08, n_iter_no_change=10, 
max_fun=15000)

参数：

‘constant’ 是由‘learning_rate_init’ 给出的恒定学习率。
‘invscaling’ 在每个时间步 ‘t’ 使用 ‘power_t’ 的逆缩放 index 逐渐降低学习率 learning_rate_。 effective_learning_rate = learning_rate_init /pow(t, power_t)
‘adaptive’ 保持学习率恒定为 ‘learning_rate_init’ 只要训练损失不断减少。如果 ‘early_stopping’ 开启，每次连续两个 epoch 未能将训练损失减少至少 tol 或未能将验证分数增加至少 tol 时，当前学习率除以 5。
‘lbfgs’ 是quasi-Newton 方法系列中的优化器。
‘sgd’ 指的是随机梯度下降。
‘adam’ 指的是由 Kingma、Diederik 和 Jimmy Ba 提出的基于随机梯度的优化器
‘identity’, no-op 激活，用于实现线性瓶颈，返回 f(x) = x
‘logistic’，逻辑 sigmoid 函数，返回 f(x) = 1 /(1 + exp(-x))。
‘tanh’，双曲 tan 函数，返回 f(x) = tanh(x)。
‘relu’，整流后的线性单位函数，返回 f(x) = max(0, x)

hidden_layer_sizes：元组，长度= n_layers - 2，默认=(100，)
第 i 个元素表示第 i 个隐藏层中的神经元数量。
activation：{‘identity’, ‘logistic’, ‘tanh’, ‘relu’}，默认='relu'
隐藏层的激活函数。
solver：{‘lbfgs’, ‘sgd’, ‘adam’}，默认='adam'
权重优化的求解器。
注意：就训练时间和验证分数而言，默认求解器 ‘adam’ 在相对较大的数据集(具有数千个训练样本或更多)上运行良好。然而，对于小型数据集，‘lbfgs’ 可以更快地收敛并表现更好。
alpha：浮点数，默认=0.0001
L2 惩罚(正则化项)参数。
batch_size：整数，默认='自动'
随机优化器的小批量大小。如果求解器是‘lbfgs’，分类器将不使用小批量。当设置为 “auto”、batch_size=min(200, n_samples) 时。
learning_rate：{‘constant’, ‘invscaling’, ‘adaptive’}，默认='常量'
权重更新的学习率计划。
仅在solver='sgd'时使用。
learning_rate_init：浮点数，默认=0.001
使用的初始学习率。它控制step-size 更新权重。仅在solver='sgd' 或‘adam’ 时使用。
power_t：浮点数，默认=0.5
逆缩放学习率的 index 。当learning_rate设置为‘invscaling’时，它用于更新有效学习率。仅在solver='sgd'时使用。
max_iter：整数，默认=200
最大迭代次数。求解器迭代直到收敛(由‘tol’ 确定)或此迭代次数。对于随机求解器 (‘sgd’, ‘adam’)，请注意，这决定了 epoch 的数量(每个数据点将被使用多少次)，而不是梯度步骤的数量。
shuffle：布尔，默认=真
是否在每次迭代中打乱样本。仅在solver='sgd' 或‘adam’ 时使用。
random_state：int，RandomState 实例，默认=None
确定权重和偏差初始化的随机数生成，train-test 如果使用提前停止，则拆分，当solver='sgd' 或‘adam’ 时进行批量采样。传递一个 int 以获得跨多个函数调用的可重现结果。请参阅词汇表。
tol：浮点数，默认=1e-4
优化的容差。当 n_iter_no_change 连续迭代的损失或分数没有提高至少 tol 时，除非将 learning_rate 设置为 ‘adaptive’，否则认为达到收敛并停止训练。
verbose：布尔，默认=假
是否将进度消息打印到标准输出。
warm_start：布尔，默认=假
当设置为 True 时，重用之前调用的解决方案作为初始化，否则，只需擦除之前的解决方案。请参阅词汇表。
momentum：浮点数，默认=0.9
梯度下降更新的动量。应介于 0 和 1 之间。仅在solver='sgd' 时使用。
nesterovs_momentum：布尔，默认=真
是否使用涅斯捷罗夫的动量。仅在求解器 ='sgd' 且动量 > 0 时使用。
early_stopping：布尔，默认=假
当验证分数没有提高时，是否使用提前停止来终止训练。如果设置为 true，它将自动留出 10% 的训练数据作为验证，并在连续 n_iter_no_change 的验证分数没有提高至少 tol 时终止训练。仅在solver='sgd' 或‘adam’ 时有效。
validation_fraction：浮点数，默认=0.1
留出作为提前停止验证集的训练数据的比例。必须介于 0 和 1 之间。仅在 early_stopping 为 True 时使用。
beta_1：浮点数，默认=0.9
在 adam 中估计一阶矩向量的 index 衰减率应该在 [0, 1) 中。仅在solver='adam'时使用。
beta_2：浮点数，默认=0.999
在 adam 中估计二阶矩向量的 index 衰减率应该在 [0, 1) 中。仅在solver='adam'时使用。
epsilon：浮点数，默认=1e-8
亚当数值稳定性的值。仅在solver='adam'时使用。
n_iter_no_change：整数，默认=10
不满足tol 改进的最大时期数。仅在solver='sgd' 或‘adam’ 时有效。
max_fun：整数，默认=15000
仅在求解器='lbfgs' 时使用。函数调用的最大数量。求解器迭代直到收敛(由‘tol’ 确定)，迭代次数达到max_iter，或此函数调用次数。请注意，函数调用的数量将大于或等于 MLPRegressor 的迭代次数。

属性：

loss_：浮点数
使用损失函数计算的当前损失。
best_loss_：浮点数
求解器在整个拟合过程中达到的最小损失。
loss_curve_：形状列表(n_iter_，)
在每个训练步骤结束时评估的损失值。列表中的第 i 个元素表示第 i 次迭代的损失。
t_：int
求解器在拟合期间看到的训练样本数。数学上等于n_iters * X.shape[0]，意思是time_step，它被优化器的学习率调度器使用。
coefs_：形状列表 (n_layers - 1,)
列表中的第 i 个元素代表第 i 层对应的权重矩阵。
intercepts_：形状列表 (n_layers - 1,)
列表中的第 i 个元素表示对应于第 i + 1 层的偏置向量。
n_features_in_：int
拟合期间看到的特征数。
feature_names_in_：ndarray 形状(n_features_in_，)
拟合期间看到的特征名称。仅当 X 具有全为字符串的函数名称时才定义。
n_iter_：int
求解器已运行的迭代次数。
n_layers_：int
层数。
n_outputs_：int
输出数量。
out_activation_：str
输出激活函数的名称。

注意：

MLPRegressor 迭代训练，因为在每个时间步都会计算损失函数相对于模型参数的偏导数以更新参数。

它还可以在损失函数中添加一个正则化项，以缩小模型参数以防止过度拟合。

此实现适用于表示为密集和稀疏 numpy 浮点值数组的数据。

案例举例1：

from sklearn.neural_network import MLPRegressor
 from sklearn.datasets import make_regression
 from sklearn.model_selection import train_test_split
 X, y = make_regression(n_samples=200, random_state=1)
 X_train, X_test, y_train, y_test = train_test_split(X, y,  random_state=666)
 regr = MLPRegressor(random_state=1, max_iter=500).fit(X_train, y_train)
 regr.predict(X_test[:2])
            array([-0.9..., -7.1...])
 regr.score(X_test, y_test)
           0.4...

案例举例2：

使用 MLPRegressor 拟合 3D 函数

def threeDFunc(xin,yin):

z = np.zeros((40,40))

for xIndex in range(0,40,1):

for yIndex in range(0,40,1):

z[xIndex,yIndex]=(np.exp(-(xin[xIndex]**2+yin[yIndex]**2)/0.1))

return z

xThD = np.arange(-1,1,0.05)

yThD = np.arange(-1,1,0.05)

zThD = threeDFunc(xThD, yThD)

3Dplot

classifier = neural_network.MLPRegressor(hidden_layer_sizes=(200, 200),

activation='logistic', learning_rate='adaptive')

xy = np.array((xThD.flatten(),yThD.flatten()))

classifier.fit(np.transpose(xy), zThD)

pre = classifier.predict(np.transpose(xy))

import pylab

from mpl_toolkits.mplot3d import Axes3D

fig = pylab.figure()

ax = Axes3D(fig)

X, Y = np.meshgrid(xThD, yThD)

ax.plot_wireframe(X, Y, zThD)

ax.plot_wireframe(X, Y, pre, color='red')

print(np.shape(zThD))

print(np.shape(pre))

plt.show() 3Dplot with approximation

使用 activation='tanh'
将激活函数更改为双曲 tan 函数，使用 solver='lbfgs' 将求解器更改为 lbfgs。

如果分类器实例化如下所示，则红色和蓝色的图应该几乎相同:

classifier = neural_network.MLPRegressor(hidden_layer_sizes=(200, 200),

solver='lbfgs', activation='tanh', learning_rate='adaptive')

参数：

属性：

注意：

使用 MLPRegressor 拟合 3D 函数

图片预览