大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
数据获取

数据获取

从技术层面来讲,数据来源可以通过读取本地文件,也可能是从服务器下载下来的日志,或者自己构建爬虫来爬取数据。本地文件中常用的格式,如TXT 文件、JSON文件、CSV文件、Excel文件、SQLite数据库等。

逗号分隔Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号)。对应CSV文件以纯文本形式存储表格数据(数字和文本),它由任意数目的记录组成,记录间以某种换行符进行分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。CSV文件可以使用记事本(NOTE)来开启,也可以用Excel开启。

一旦有了数据,我们就可对其进行检查和探索。在电影行业的各项数据中,电影票房(Box Office)最为重要,它指电影院售票处,后引申为影院的放映收益或一部电影的影院放映收益情况。现在逐渐有公司专门统计电影的票房,给出更为明确和直观的数据。票房在一定程度上体现了人们对一部电影的喜爱程度。

    本项目统计分析需要使用2010年5月各个电影的票房数据,所有数据存储于文件film.csv中。现需要根据各电影票房数据及其他基本信息,展示某部电影在一定期间内的票房变化趋势和动态预测。

任务一:从文件CSV中读取数据

(1)下载以下文件,并从文件film.csv中读取数据


(2)撰写代码,参考代码如下:

#coding:utf-8

# 导入pandas

import pandas as pd

# 使用read_csvfilm.csv中获取数据
film = pd.read_csv(
'film.csv', delimiter=',', names=['date', 'filmname', 'BOR'])

# 输出从文件中读取的部分结果
film.head()

(3)运行代码,结果参考:

数据获取操作视频讲解



实践操作:请花10分钟的时间,完成实验报告第一部分(数据读取)的内容。