大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
任务简介

背景介绍

数据获取的途径可以是互联网,通过网络爬虫可以爬取互联网中的各项实时数据。那么,什么是爬虫?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛。蜘蛛沿着网络爬取自己的猎物,而爬虫则沿着设计的路径爬取数据。网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。

用户获取网络数据的方式通过浏览器提交请求、下载网页代码、解析成页面来完成数据下载与浏览。爬虫就是模拟浏览器发送请求获取网页代码,从中提取有用的数据于存放于数据库或文件中。它的过程如图所示:

                            

具体爬虫可以做什么?利用爬虫可以做一些有趣的事,比如:爬取古诗文;爬取电商数据:如意淘、惠惠购物助手、西贴、购物爬取社会化媒体数据;爬取金融数据进行量化分析;取新闻数据进行舆情、文章聚合等,这是取决于我们的需求及对问题的理解。

然而,爬过来的数据可能是杂乱无章的。比如股票数据,可能爬取下来只是一些看似很乱的数据,具体是涨是跌,看不出明确的意义。如何将这些数据转化为有用的信息,便是后续数据整理与解析的事了。详细的一般数据应用过程如图所示。


  第七周具体任务

    在本项目中,我们从最简单地网络数据一次爬取、定时爬取热门电影数据开始,最终实现房产租赁数据的采集、清洗、分析和展现。

    为完成本项目,需要掌握以下知识点:

(来源:大数据1801 董露丹笔记)

    关于本项目的爬虫技术基本介绍视频:


    实验报告下载

  • jupyter notebook版下载


  • doc版下载


  •  项目资源下载(网站数据)