大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
数据可视化

数据可视化

统计分析结果可以通过表格式、图形式和文章式等多种形式表现出来。表格式是对统计指标加以合理叙述的形式,它使得统计资料条理化、简明清晰、便于检查数字的完整性和准确性,以及对比分析。这些统计表从形式上看,基本由标题、横行、纵栏、数字等部分所组成。

图形式的统计分析结果具有直观、醒目、易于理解的特点,在计算机大量普及的今天,统计图表在统计分析中得到了极为广泛的应用。图形式使用的传统图表类型有折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图,同时支持任意维度的堆积和多图表混合展现。

文章式的主要形式是统计分析报告。它是全部表现形式中最完善的形式,是统计分析研究过程中所形成的论点、论据、结论的集中表现,它是运用统计资料和统计方法、数字与文字相结合,对客观事物进行分析研究结果的表现。

任务四:图形化显示不同电影的票房情况。

参考代码如下:

# coding:utf-8

# 导入画图
import matplotlib.pyplotas plt

# 设置中文字体为SimHei黑字体
plt.rcParams['font.sans-serif'] =['SimHei']

# 解决负号显示的问题
plt.rcParams['axes.unicode_minus'] =False
# 设置标题
plt.title(u'影片20105月后半月总票房')

# 设置xy轴的标题,x轴显示的值为电影名
plt.xlabel(u'电影名称')
plt.ylabel(u'票房收入\万元')

# 柱状图,xy轴分别为电影名和票房,并设置每根柱子颜色为绿色,宽度为0.4,表示占据40%的位置
plt.bar(filmgrp_bor['filmname'], filmgrp_bor['BOR'], color='green', width=0.4)

# 显示图像
plt.show()


显示结果如下:

    数据可视化相关讲解详见以下视频:


课堂练习:

  • 排序后显示,结果如下


  • 子图显示,结果如下



   下面就数据可视化中的子图做一个简单的介绍:



  • 格式化显示,结果如下



   下面就数据可视化中的数据标签的实现做一个简单的介绍: