大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
Pycharm环境安装

Pycharm集成开发环境的安装

  本网站的所有案例也可以运行在 PyCharm集成开发环境。最新的PyCharm集成开发环境读者可以从PyCharm官网进行下载。推荐使用的是PyCharm Professional版本,当然也可以选用社区版。学习者可以根据自己计算机的操作系统进行选择与安装,非常简便,不再详述。


Python解释器的安装

 注:PyCharm在安装前需要安装Python解释器。

  本网站中所有数据分析案例均使用Python语言,以及Python的第三方常用库中有关数据预处理、数据分析工具、数据可视化包。因此,在学习本书内容前,要求学习者对Python编程有一定的基础。Python是一种目前广泛使用的通用编程语言,加上其在科学计算和机器学习领域的应用,找到一本适用于初学者Python教程并不是十分困难的。

  为完成项目案例的学习与应用,学习者需要在计算机上安装Python编程环境。安装后,由Python解释器负责运行Python程序。目前,Python有两个版本,一个是2.x版本,一个是3.x版本。需要注意的是,这两个版本是不兼容的。目前,Python正在朝着3.x版本演进,在演进过程中,大量针对2.x版本的代码要修改后才能运行。因此,存在许多第三方的库也针对3.x进行了开发与应用。机器学习算法日新月异、与时俱进,为保证程序可以使用大部分新的第三方库,本书仍以3.x版本为编程环境,确切地说,是应用较为成熟的3.7版本。

  学习者可以从Python的官方网站python.orghttps://www.python.org/downloads/)下载3.7版本。下载完成后,运行MSI安装包并选择自定义的安装目录。安装后,再次确认你的计算机上安装的Python版本是3.7,以便更好地学习本书的内容。

  当然,你也可以直接使用Anaconda中的Python解释器,默认路径在:C:\ProgramData\Anaconda3