大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
常用第三方包的安装与配置

安装本课程中的项目所需要的第三方包 

  使用机器学习分析数据时,需要涉及各种第三方的库包,最主要的是数据分析包(NumPyPandas)、绘图包(Matplotlib)、机器学习包(scikit-learn等。

  其中,NumPy主要用来做一些科学运算,特别是矩阵的运算。NumPyPython提供了真正的多维数组功能,并且提供了丰富的函数库处理数组。它将常用的数学函数都进行了数组化,使得这些数学函数能够直接对数组进行操作。

  Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量函数库和一些标准的数据模型,提供了高效操作大型数据集所需的工具。Pandas同时也提供了大量能使我们快速便捷地处理数据的函数和方法,它是Python成为强大而高效的数据分析语言的重要因素之一。

  MatplotlibPython的一个可视化模块,可用来方便地制作线条图、饼图、柱状图以及其他专业图形,并且支持所有操作系统下不同的GUI后端。Matplotlib有一套允许定制各种属性的默认设置,可以控制Matplotlib中的很多图形属性,比如图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网格属性、文字和文字属性。

(1)Anaconda中第三方包的安装

方式一

  直接进入到Jupyter Notenook, 在代码运行前输入(以安装pandas为例)

  !pip intall pandas

方式二

  进入命令窗口,使用命令安装第三方包:

  

(2)Pycharm中第三方包的安装

  一般地,一个包(库)的安装过程如下。

  首先,打开设置,进入“项目”à“项目解释器(Project Interpreter)”,如图A.2所示,单击“+”开始搜索包(库)。                             

A.2  包(库)的安装(一)

  如图A.3所示,输入需要安装的包名(库名),如“numpy”,单击“Install package”,即可完成NumPy的安装。以此类推,完成其余三个包的安装。

A.3  包(库)的安装(二)

  以上三个常用的库安装成功后,学习者则可立即进入本书内容的学习和实践。在各章节中,如有用到其他的第三方包,会特别提示说明,比如,urllibrequestsBeautifulSoupfoliumseabornOpenCVTensorFlow等。

  (3)需要用到的第三方包  

  本课程使用的第三方包列表如下,学习者可以事先一次性安装完成,也可在需要用到的时候再安装。                                                                                                                        

 

序号

 
 

   

 
 

   

 
 

   

 
 

1

 
 

NumPy

 
 

1.17.0

 
 

Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库

 
 

2

 
 

Matplotlib

 
 

3.1.1

 
 

Matplotlib是一个 Python2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形

 
 

3

 
 

Pandas

 
 

0.24.1

 
 

Pandas是一个强大的分析结构化数据的工具集,它的使用基础是NumPy(提供高性能的矩阵运算0),用于数据挖掘和数据分析,同时也提供数据清洗功能。

 
 

4

 
 

seaborn

 
 

0.9.0

 
 

seaborn是基于Matplotlib的图形可视化Python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表

 
 

5

 
 

sklearn

 
 

0.20.2

 
 

scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包括了特征提取、数据处理和模型评估三大模块

 
 

6

 
 

urllib3

 
 

1.24.1

 
 

urllib包含了打开网址发送请求的方法,服务于升级的HTTP 1.1标准,且拥有高效 HTTP连接池管理及HTTP代理服务的功能库

 
 

7

 
 

requests

 
 

2.21.0

 
 

requestsPython实现的简单易用的http库,是在urllib3的基础上进行的封装,使用起来比urllib简单很多

 
 

9

 
 

BeautifulSoup4

 
 

4.7.1

 
 

BeautifulSoup是一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML数据

 
 

10

 
 

folium

 
 

0.8.3

 
 

folium是地理信息可视化库leaflet.jsPython提供的接口,通过它可调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图

 
 

11

 
 

LIBSVM

 
 

3.23.0

 
 

LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易用和快速有效的SVM模式识别与回归的软件包,该包中不但提供了编译好的、且可在Windows系列系统中直接执行的文件,还提供了源代码

 
 

12

 
 

OpenCV-python

 
 

4.1.0

 
 

OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,实现了图像处理和计算机视觉方面的很多通用算法

 
 

OpenCV-contrib-python

 
 

13

 
 

Keras

 
 

2.0.9

 
 

Python编写的开源人工神经网络库,可以作为TensorFlowMicrosoft-CNTKTheano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化

 
 

14

 
 

PyTorch

 
 

0.4.1

 
 

PyTorch是由FacebookAI研究团队发布的一个Python工具包,PyTorch是使用GPUCPU优化的深度学习张量库

 
 

15

 
 

TensorFlow

 
 

1.14.0CPU

 
 

TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现

 


(4)Pycharm如何与Anaconda共用环境 

  如果你的电脑已经有了Python解释器和相关的第三方库,不需要重复安装,在Pycharm中配置解释器即可。