大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
使用散点图展现房屋面积与租赁价格的关系

什么是散点图

散点图非常适合展示两个变量之间的关系,可以直接看到数据的原始分布。 如图(a)所示的,通过对组进行简单地颜色编码(或者形状编码)来查看不同组数据的关系。要可视化第三个变量,仅需使用另一个参数(如点大小)就可以,如图(b)所示。有时我们也可称之为“气泡图”,每个点对应的第三个值用一个气泡的大小来表示。

                             

(a)基本散点图                      (b)气泡图


散点图(scatter)将序列显示为一组点。值由点在图表中的位置表示。利用散点(坐标点)的分布形态反映变量统计关系的一种图形。还可以由图表中的不同标记表示类别。它通常用于比较跨类别的聚合数据。

任务2:使用散点图展现温州市区不同行政划区房产租赁面积与价格的关系。


  • 步骤一:撰写代码用散点图展现双变量之间的关系(面积与价格),代码如下:


 

def plot_scatter():
    
plt.figure()
     colors = [
'red', 'blue', 'green']
     district = [
'鹿城', '龙湾', '瓯海']
     markers = [
'o', 's', 'v']
 
    
for i in range(3):
         x = house.loc[house[
'district'] == district[i]]['mj']
         y = house.loc[house[
'district'] == district[i]]['price']
        
plt.scatter(x, y, c=colors[i], s=20, label=district[i], marker=markers[i])
    
plt.legend()
    
plt.xlim(20, 300)
    
plt.ylim(0, 10000)
    
plt.title('温州各行政区内面积对租赁价格的影响(散点图)', fontsize=20)
    
plt.xlabel('面积(平方米)', fontsize=16)
    
plt.ylabel('房屋租赁价格(元/套)', fontsize=16)
    
plt.show()
 plot_scatter()

 
  • 步骤二:运行以上代码,结果如图所示。

                           

  • 步骤三:展现面积、房间数与价格的关系(气泡图),撰写代码如下:

 

def plot_scatter():
     fig, ax =
plt.subplots(figsize=(9, 7))
     district = [
'鹿城', '龙湾', '瓯海']
    
# 定义气泡形状
    
markers = ['o', 's', 'v']
    
# 定义气泡颜色
    
cms = [pltNaN.get_cmap('Greens'),pltNaN.get_cmap('Blues'),pltNaN.get_cmap('Reds')]
    
disLen = len(district)
     n =
2
    
for i in range(disLen):
         x = house.loc[house[
'district'] == district[i]]['mj']
         y = house.loc[house[
'district'] == district[i]]['fj']
         z = house.loc[house[
'district'] == district[i]]['price']
         size = z.rank()
         bubble = ax.scatter(x, y,
s=n*size, c=z, label = district[i], marker = markers[i], cmap=cms[i], linewidth=0.5, alpha=0.5)
 
        
if i == 0:
            
plt.xlim(20, 250)
            
plt.ylim(0, 5)
            
plt.title('面积、房间数对租赁价格的影响(气泡图)', fontsize=20)
            
plt.xlabel('面积(平方米)', fontsize=16)
            
plt.ylabel('房间数', fontsize=16)
        
# 画出颜色条
        
plt.colorbar(bubble,cax=plt.axes([0.95 + i * 0.1, 0.13, 0.02, 0.78]))
        
# 写入颜色的标签
        
fig.text(0.95 + i * 0.1, 0.09,district[i])
    
plt.show()
 plot_scatter()

 
  • 步骤四:运行以上代码,结果如图所示。