大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
综合实训要求

    通过综合实训,对学过的基本知识方法和方法进行练习和巩固,具备初步的独立完成内容设计的能力,提高综合运用所学知识和技能解决若干简单问题的能力,为今后从事工作打下坚实的基础。

【学习目标】

  • 进一步掌握网络爬虫实现对数据的采集;

  • 掌握对数据预处理的方法;

  • 掌握对数据统计与分析的流程;

  • 进一步掌握数据可视化的实现过程;

  • 学会使用机器学习在现实生活中的应用;

  • 熟悉各种不同机器学习方法的适用场景;

  • 学会调整不同机器学习方法的参数调整过程;

  • 熟练掌握机器学习方法的Python实现

【综合实训要求】

(1)撰写爬虫,抓取任意主题的网络实时数据(可以是电影、房产、购物、股票、天气或空气质量、评论信息等),范围题材不限。尝试爬取相关图像数据,用于做更多的信息提取与分析。

(2)运行爬虫获取的有效数据样本500条以上、可分析的数据项8列以上。

(3)对获取的数据项进行处理,包括缺失值的处理、唯一性校验、有效性检验等。

(4)计算中间结果,统计各类重要信息,并可视化展现统计结果。

(5)使用机器学习方法对数据进行分析与预测:比如房价的影响因素分析需要从不同方面、不同维度展开,也可以从时间维度进行预测房价的走势;

(6)完成数据与数据决策的应用:比如可以使用聚类算法找出异常房价或符合条件的低价房源通告;

(7)撰写数据分析与总结报告,要求内容完整、详实,要有主线,重点突出,图文并重。

【实训方式】

团队作业,分组完成,汇报成果。

【实训学时分配】

    建议的学时分配如下表所示。

近年来,得益于国民经济的持续快速增长以及国家对于文化产业的支持,整个电影文化与产业环境持续改善。作为文化娱乐市场重要组成部分的电影市场已连续多年实现电影票房的快速增长,同时,吸引了各类社会资本(国有、民营、外资)积极进军电影业,从而进一步推动了电影业的良性快速发展。

投拍一部电影,需要进行调查分析,深入了解电影市场的情况,才能提高票房收入,降低投资风险。为更好地分析电影总体发展状态及投资的可行性,需要对原电影数据进行采集、清洗、处理、分析和预测。良好的分析和预测方法可以帮助投资者分析和投资电影,以期获得更高的收益。

一般地,从市场上可获取的有价值的电影数据主要包括:电影名称、电影投映时段、导演、电影分类、电影评分数据及票房数据等。下面以“电影数据”的获取、处理与分析为例,说明所学内容的综合应用过程。