大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
任务简介

本项目的学习目标

l熟练掌握PyCharm集成开发环境的使用方法。

l掌握数据分析的一般过程。   

l了解数据获取的主要途径。

l学会读取CSV本地文件。

l初步学会Python数据分析常用包的使用方法PandasMatplotlib等。

l掌握使用柱状图来实现数据的可视化,并能对坐标轴、标题、颜色等属性进行设置。

l了解散点图的画法。

  

  通常,数据分析的基本步骤(见图)包括以下5步。

  (1)明确目的:分析要解决什么问题,从哪些角度分析问题,采用哪些方法或指标。

  (2)数据获取:明确数据获取的途径,主要包括本地数据的采集和网络数据的获取。

  (3)数据解析:把杂乱无章的数据处理成具有一定结构,并形成有效数据。

  (4)数据分析:对数据进行分析操作,比如进行分组、聚合等操作。

  (5)结果呈现:将数据以图的形式直观地进行展示。

                                                                             

 数据分析的基本步骤

  本项目基于上述步骤,实现对电影数据的读取、清洗、简单统计分析与可视化操作。

  下面就本项目需要掌握的知识点做个简单的视频介绍:


本项目的教案

主要知识点:

(来源:大数据1802 谢佳佳 )

本项目的课堂实验报告(WORD版)

   请下载该word实验报告,按次序完成所有题。如果能按照本项目中的章节从2.2-2.5完成,那么恭喜你,你已经掌握了本项目的基本内容。

  或者你可以下载并使用.ipynb格式的实验报告(推荐使用该版本),后面视频中的演示都使用该软件平台。


  用到的项目资源也请下载:


你的任务来了(第1-2周):  

实验报告完成后,请在发布的作业中上交。可以上交word版,也可以上交html版。因为是第一次上交实验报告,如有问题请在超星学习通的群内提问。上课期间,陈老师实时在线,等你来提问。也一起来看看同学们的优秀作业吧: