大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
使用箱形图展现租赁价格分布特征

任务简介

    上一章我们使用了直方图,它很好地展现了变量的分布。但是如果我们需要更多的信息呢?也许我们想要更清晰地看到数值的标准偏差?也许中位数与均值有很大不同,是否存在很多离群值?即,是否存在中位数与均值的较大偏差,使得大部分数值都集中在某一边呢。

    这就是箱形图所适合干的事情了。

什么是箱形图

箱形图,如图所示,给我们提供了上述所提及的信息。实线框的底部和顶部总是第一个和第三个四分位(比如 25% 和 75% 的数据),箱体中的横线指示的是第二个四分位(中位数)。像胡须一样的两条线(即上顶线和结尾线)从这个箱体伸出,显示的是数据的范围。实心的圆点表示异常值。

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。其作用主要是用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。


任务1:使用箱形图展现各行政区域房价分布

  • 步骤一:撰写代码,读取数据并展现。

 

#!/usr/bin/Python
 # -*- coding: gbk -*-
 
import pandas as pd
 
import matplotlib.pyplotas plt
 
import numpyas np
 
plt.rcParams['font.sans-serif'] = ['SimHei']
 
plt.rcParams['axes.unicode_minus'] = False
 
 
# 读取本地数据
 
house = pd.read_csv('result.csv', encoding='gbk')
 
# 只取温州市三区的数据进行查看
 
house = house[(house.district.isin(['鹿城','龙湾','瓯海']))]
 
# 温州市各行政区划租赁价格箱形图
 
house.boxplot(column='price', by='district', whis=1.5)
 
plt.xlabel("行政区域")
 
plt.ylabel("租赁价格(元)")
 
plt.show()

 
  • 步骤二:运行代码,可视化的结果如图所示。

                             

    箱形图具有较强的数据分布检查和异常值检查功能。从温州市各行政区租赁价格的箱型图(图4.3)可以看出,鹿城存在上异常值。易得出,箱形图具有以下作用:

(1)可以直观明了地识别数据中的异常值;

(2)利用箱形图可以判断数据的偏态和尾重;

      (3)利用箱形图可以比较不同批次的数据形状。