大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
房产租赁数据统计

   接下来,我们需要对爬取下来的数据进行简要统计与分析,要求得出温州市区内租赁的最高价格、最低价格、平均价格和中位数价格,并画出价格分析图,并用直方图表示。

    假如你在上一节中数据没有爬取成功,没有关系,先下载以下数据完成数据的统计与分析(跟实例数据可能有所差别)。


任务3分析房产租赁数据。

  • 步骤一:读取数据,并对数据进行聚合统计,代码示例如下:

 

#!/usr/bin/Python
 # -*- coding: gbk -*-
 # 
导入
 
import pandas as pd
 
from pylabimport mpl
 
设置字体为SimHei,用于显示图中的中文
 
mpl.rcParams['font.sans-serif'] = ['SimHei']
 mpl.
rcParams['axes.unicode_minus'] = False
 
读取本地数据,编码为gbk
 
house = pd.read_csv('result.csv'encoding='gbk')
 house = house[(house.district.isin([
'鹿城','龙湾','瓯海']))]
 price = house[
'price']
 max_price = price.max()
 min_price = price.min()
 mean_price = price.mean()
 median_price = price.median()
 
输出温州市租赁的最高价格、最低价格、平均价格和中位数价格
 
print(u"温州市区租赁最高价格:%.2f/% max_price)
 
print(u"温州市区租赁最低价格:%.2f/% min_price)
 
print(u"温州市区租赁平均价格:%.2f/% mean_price)
 
print(u"温州市区租赁中位数价格:%.2f/% median_price)

 
  • 步骤二:运行代码,结果如图所示。

         

    操作演示如下视频所示,可能每个人数据都不一样:


  • 步骤三:使用柱状图展现各行政区的平均租赁房价,参考代码如下:

 

mean_price_district = house.groupby('district')['price'].mean().sort_values(ascending=False)
 mean_price_district.plot(
kind='bar',color='b')
 
print(mean_price_district)
 
设置y轴刻度范围
 
plt.ylim(1000,5000,500)
 
plt.title("温州市各行政区划房产租赁平均价格分析")
 
plt.xlabel("温州市行政区划")
 
plt.ylabel("房产租赁平均价格(元/套)")
 
plt.show()

 
  • 步骤四:运行代码,结果如图所示,可以看到温州市三区的平均租赁价格水平相当。

    提前了解柱状图:

   

    操作演示如下视频所示:


  • 步骤五:使用直方图展示统计数据,代码如下:

 

import matplotlib.pyplotas plt
 
绘制房价分布直方图
 # 
设置x轴,y轴刻度范围
 
plt.xlim(0,14000)
 
plt.ylim(0,30)
 
plt.title("温州市区房产租赁价格分析")
 
plt.xlabel("租赁价格 (/)")
 
plt.ylabel("租赁数量")
 
plt.hist(price, bins=60)
 
绘制垂直线
 
plt.vlines(mean_price, 0500color='red'label='平均价格'linewidth=1.5linestyle='--')
 
plt.vlines(median_price, 0500color='red',label='中位数价格'linewidth=1.5)
 
显示图例
 
plt.legend()

 
  • 步骤六:运行代码,结果如图所示。

提前了解直方图:


操作演示如下视频所示: