课程门户-章节详情

陈清华、田启明、施郁文等

课程简介
- ● 课程简介
环境准备
- ● Anaconda环境安装与使用
- ● Pycharm环境安装
- ● 常用第三方包的安装与配置
项目一电影数据统计
- ● 任务简介
- ● 数据获取
- ● 数据解析
- ● 数据分析
- ● 数据可视化
- ● 课堂思政：新型冠状病毒疫情分析与可视化
- ● 课堂思政：中国工匠精神
项目二电影数据分析（回归）
- ● 任务简介
- ● 使用一元线性回归分析电影票房数据
- ● 使用多项式回归分析电影票房数据
- ● 使用多元线性回归分析电影票房数据
- ● 课堂实训：工资分析
项目三爬取房产租赁数据
- ● 任务简介
- ● 电影数据爬取
- ● 房产租赁数据爬取
- ● 房产租赁数据统计
- ● 课后实训：二手房数据爬取
- ● 课堂思政：疫情数据的爬取与可视化
项目四房屋租赁数据分析与可视化
- ● 任务简介
- ● 使用箱形图展现租赁价格分布特征
- ● 使用散点图展现房屋面积与租赁价格的关系
- ● 使用饼图展现不同行政区域的可租赁房源占比
- ● 使用折线图可视化房间数与租赁价格的关系
- ● 使用热力图展现地理位置的影响
- ● 课后实训：二手房数据分析
- ● 课堂思政：疫情数据分析与可视化
项目五身高与体重数据分析（分类器）
- ● 使用身高、体重数据进行性别分类
  - ● 使用逻辑回归进行性别分类
  - ● 使用朴素贝叶斯进行性别分类
  - ● 使用决策树模型进行性别分类
  - ● 使用支持向量机进行性别分类
- ● 使用支持向量机进行肥胖程度分类
- ● 课后实训：身高体重数据分析（分类器）
项目六鸢尾花分类
- ● 任务简介
- ● 使用K近邻对鸢尾花进行分类
- ● 使用随机森林对鸢尾花进行分类
- ● 使用神经网络对鸢尾花进行分类
项目七电影评分数据分析（聚类）
- ● 任务简介
- ● 使用BDSCAN确定质心个数
- ● 使用K-Means对观影用户进行聚类
项目八人脸检测与人脸识别
- ● 任务简介
- ● 图像中的人脸检测
- ● 视频中的人脸检测
- ● 图像中的人脸识别
- ● 视频中的人脸识别
- ● 课后实训：眼睛与笑脸检测
- ● 课堂思政：人工智能与弯道超车
项目九手写数字识别应用
- ● 任务简介
- ● 图像数据集准备
- ● 使支持向量机识别手写数字
- ● 使用神经网络识别手写数字
- ● 课后实训：使用不同的机器学习方法识别数字手写体
项目十深度学习在行为识别中的应用
- ● 任务简介
- ● 使用卷积神经网络识别行为
- ● 使用循环神经网络识别行为
- ● 课后实训：电影评论数据分析
项目十一 TensorFlow与神经网络
- ● 任务简介
- ● 使用单层神经网络预测花瓣宽度
- ● 设计多层神经网络实现鸢尾花分类
- ● 课后实训：卷积神经网络的实现与应用
项目综合实训（17级学生案例）
- ● 综合实训要求
- ● 确定数据采集目标
- ● 数据采集与预处理
- ● 数据统计与分析
- ● 数据分析与预测
- ● 数据分类应用
- ● 17级实训案例：二手车数据获取与市场分析

数据解析

无论来自何处的数据，最终获取的结果都可能会存在缺陷。例如，票房是否都为正数？只有好的数据质量，才能保证后面的模型和分析的正确性。而我们得到的数据也可能是缺失的或不完整的，因此数据检查这一步是非常关键的。无论何种类型的数据都要检查其极端情况，检查时可以进行简单地统计、测试和可视化操作。

数据解析包括检查、清洗与筛选等过程。数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看得出就是把“脏”的“洗掉”，是发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值、缺失值等。因为获得的数据是面向某一主题的数据集合，这些数据可能是从多个业务系统中抽取而来的，也可能包含各项历史数据，这样就避免不了部分数据是错误数据或有的数据相互之间有冲突，这些错误的或有冲突的数据都不是我们想要的，称为“脏数据”。我们需要按照一定的规则把“脏数据洗掉”，这就是数据清洗。数据清洗的一般过程如图所示。

数据清洗的任务是过滤掉不符合要求的数据，将过滤的结果交给业务主管部门，确认是过滤掉，还是由业务单位修正之后再进行抽取。不符合要求的数据主要有不完整数据、错误数据、重复数据三大类。数据清洗一般是由计算机而不是人工完成的。接下来，我们尝试使用计算机程序删除不完整的数据。

任务2.1：从数据项中去除票房数据项为空的“脏数据”

参考代码如下：

# 数据清洗：去掉缺掉含NaN的数据行

film= film.dropna()
film.head()

结果如下：

数据清洗相关讲解见以下视频：

任务2.2：从数据中筛选电影名称为“老男孩”的数据。

参考代码如下：

# 筛选出电影名filmname列值为老男孩的数据

film_boy= film[(film.filmname == '老男孩')]
film_boy.head()

结果如下：

任务2.3：从数据中筛选放映日期为2010年5月后半月的电影数据。

参考代码如下：

# 将date列即放映时间转换为日期型

film['date'] = pd.to_datetime(film['date'])

# 筛选出放映时间为2010年5月后半月的电影数据
film_date = film.loc[ (film['date']>'2010-5-15') & (film['date']<= '2010-5-31')]
print(film_date)

结果如下：

实验与练习

完成上述所有操作，同时完成以下练习

筛选票房数据“>1600”且名称为“老男孩”或“剑雨”的数据行、

数据筛选相关讲解见以下视频：

上机实践操作：请花25分钟的时间，完成实验报告第二部分（数据解析）的内容。

数据解析

任务2.1：从数据项中去除票房数据项为空的“脏数据”

任务2.2：从数据中筛选电影名称为“老男孩”的数据。

任务2.3：从数据中筛选放映日期为2010年5月后半月的电影数据。

实验与练习

图片预览