大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
任务简介

学习目标

  • 掌握一元线性回归(Linear Regression)、多项式回归的概念。

  • 掌握sklearn中一元线性回归、多项式回归的应用。

  • 掌握sklearn中数据预处理的方法,特别是范围缩放、标记映射的使用方法。

  • 掌握sklearn中训练集(trainingset)与测试集(testing set)的切分方法。

  • 了解多元线性回归及其应用。

  • 初步学会散点图、折线图的作图方法,熟练掌握柱状图的作图方法及参数设置

背景知识

    目前,网络上公开了很多的电影数据,比如Movie Database网站就提供了一份数据集,主要包括1960—2015年上映的部分电影的样本集。读者可以从上面下载数据集进行分析。电影数据项主要包括:电影名称、电影放映日期、导演、电影分类、电影评分数据及票房数据等。本项目将通过回归方法对2017年浙江省高职高专院校技能大赛“大数据技术与应用”赛项试题中使用的电影历史数据进行分析,并对未来的票房与评分进行简单预测。对于初学者,我们在内容的讲解上更注重于方法的使用过程与技巧,而并不偏重于数据的多样性、复杂性和分析方法应用的准确性、适用性。方法的适用性,将在应用实践、经验积累与总结过程中不断引入,循序渐进,慢慢展开。

    机器学习背景知识讲解详见以下视频:


    你来说一说,机器学习,欢迎大家参与下面的讨论。


本项目第1-2次课(第3-4周)

任务一:电影数据分析与预测(一元线性回归)

  • 数据读取

  • 数据整理

  • 数据分析与挖掘

  • 数据可视化

  • 数据预测

掌握以下知识点:

(来源:大数据1801 董露丹 )

具体实现过程可参考PPT及后续讲解内容,即3.2


下载并完成实验报告,找到发布的作业并上传至平台:

  • word版


  • ipynb版


本次实验用到的数字资源



本项目第3次课(第5周)

任务2:电影数据分析与预测(多项式回归)

掌握以下知识点:

(来源:大数据1801 董露丹 )

实现过程可参考PPT及后续讲解内容,即3.3


任务3:电影数据分析与预测(多元线性回归)

实现过程可参考PPT及后续讲解内容:参见3.4

下载并完成以下实验报告,找到发布的作业并上传至平台:

  • word版


  • ipynb


本次实验用到的数字资源



第4次课(应用练习一)

任务4:薪资数据分析与预测(巩固练习)

实现过程可参考PPT及后续讲解内容:参见3.4

下载并完成以下实验报告,找到发布的作业并上传至平台:

  • word版


  • ipynb版


本次实验用到的数字资源