课程门户-章节详情

大数据分析技术

陈清华、田启明、施郁文等

课程简介
- ● 课程简介
环境准备
- ● Anaconda环境安装与使用
- ● Pycharm环境安装
- ● 常用第三方包的安装与配置
项目一电影数据统计
- ● 任务简介
- ● 数据获取
- ● 数据解析
- ● 数据分析
- ● 数据可视化
- ● 课堂思政：新型冠状病毒疫情分析与可视化
- ● 课堂思政：中国工匠精神
项目二电影数据分析（回归）
- ● 任务简介
- ● 使用一元线性回归分析电影票房数据
- ● 使用多项式回归分析电影票房数据
- ● 使用多元线性回归分析电影票房数据
- ● 课堂实训：工资分析
项目三爬取房产租赁数据
- ● 任务简介
- ● 电影数据爬取
- ● 房产租赁数据爬取
- ● 房产租赁数据统计
- ● 课后实训：二手房数据爬取
- ● 课堂思政：疫情数据的爬取与可视化
项目四房屋租赁数据分析与可视化
- ● 任务简介
- ● 使用箱形图展现租赁价格分布特征
- ● 使用散点图展现房屋面积与租赁价格的关系
- ● 使用饼图展现不同行政区域的可租赁房源占比
- ● 使用折线图可视化房间数与租赁价格的关系
- ● 使用热力图展现地理位置的影响
- ● 课后实训：二手房数据分析
- ● 课堂思政：疫情数据分析与可视化
项目五身高与体重数据分析（分类器）
- ● 使用身高、体重数据进行性别分类
  - ● 使用逻辑回归进行性别分类
  - ● 使用朴素贝叶斯进行性别分类
  - ● 使用决策树模型进行性别分类
  - ● 使用支持向量机进行性别分类
- ● 使用支持向量机进行肥胖程度分类
- ● 课后实训：身高体重数据分析（分类器）
项目六鸢尾花分类
- ● 任务简介
- ● 使用K近邻对鸢尾花进行分类
- ● 使用随机森林对鸢尾花进行分类
- ● 使用神经网络对鸢尾花进行分类
项目七电影评分数据分析（聚类）
- ● 任务简介
- ● 使用BDSCAN确定质心个数
- ● 使用K-Means对观影用户进行聚类
项目八人脸检测与人脸识别
- ● 任务简介
- ● 图像中的人脸检测
- ● 视频中的人脸检测
- ● 图像中的人脸识别
- ● 视频中的人脸识别
- ● 课后实训：眼睛与笑脸检测
- ● 课堂思政：人工智能与弯道超车
项目九手写数字识别应用
- ● 任务简介
- ● 图像数据集准备
- ● 使支持向量机识别手写数字
- ● 使用神经网络识别手写数字
- ● 课后实训：使用不同的机器学习方法识别数字手写体
项目十深度学习在行为识别中的应用
- ● 任务简介
- ● 使用卷积神经网络识别行为
- ● 使用循环神经网络识别行为
- ● 课后实训：电影评论数据分析
项目十一 TensorFlow与神经网络
- ● 任务简介
- ● 使用单层神经网络预测花瓣宽度
- ● 设计多层神经网络实现鸢尾花分类
- ● 课后实训：卷积神经网络的实现与应用
项目综合实训（17级学生案例）
- ● 综合实训要求
- ● 确定数据采集目标
- ● 数据采集与预处理
- ● 数据统计与分析
- ● 数据分析与预测
- ● 数据分类应用
- ● 17级实训案例：二手车数据获取与市场分析

课后实训：卷积神经网络的实现与应用

【实训目的】

通过本次实训，要求了解深度学习在计算机视觉中的应用，特别是对人脸检测、识别的应用理解；掌握TensorFlow的基本实现与相关应用。

【实训环境】

Python3.7、PyCharm环境、TensorFlow 1.14.0或TensorFlow-gpu（gpu版本）及其他依赖包。

【实训内容】

一、设计神经网络对项目九中的MNIST进行训练和测试

要求使用Tensorflow，准确率达到95%以上。

二、实现卷积神经网络CNN，并在MINST数据集上对其进行应用

在卷积神经网络（Convolutional Neural Network，CNN）中，卷积层的神经元只与前一层的部分神经元节点相连，即它的神经元间的连接是非全连接的，且同一层中某些神经元之间的连接的权重和偏移是共享的（即相同的），这样大量地减少了需要训练参数的数量。

卷积神经网络CNN的结构一般包含这几个层：（1）输入层：用于数据的输入；（2）卷积层：使用卷积核进行特征提取和特征映射；（3）激励层：由于卷积也是一种线性运算，因此需要增加非线性映射；（4）池化层：进行下采样，对特征图稀疏处理，减少数据运算量；（5）全连接层：通常在CNN的尾部进行重新拟合，减少特征信息的损失；（6）输出层：用于输出结果。

Tensorflow中卷积层的相关代码如下：

tf.nn.conv2d(

input, filter, strides, padding, use_cudnn_on_gpu=None,

data_format=None, name=None

)

池化层的相关代码如下：

tf.nn.max_pool(

value, ksize,strides,padding,data_format=’NHWC’,name=None

)

或者

tf.nn.avg_pool(

…

)

具体如何实现，读者可以根据需要深入学习，实现CNN，展开应用。

三、使用Tensorflow实现目标检测SSD，并应用于多目标检测

SSD直接采用卷积对不同的特征图来进行提取检测结果。在github.com上有许多开源的实现SSD源码共享，读者可以登陆https://github.com/balancap/SSD-Tensorflow查看SSD的示例，实现多目标检测。本书不再详细介绍。

【实训目的】

【实训环境】

【实训内容】

图片预览