大数据分析技术

陈清华、田启明、施郁文等

目录

  • 课程简介
    • ● 课程简介
  • 环境准备
    • ● Anaconda环境安装与使用
    • ● Pycharm环境安装
    • ● 常用第三方包的安装与配置
  • 项目一 电影数据统计
    • ● 任务简介
    • ● 数据获取
    • ● 数据解析
    • ● 数据分析
    • ● 数据可视化
    • ● 课堂思政:新型冠状病毒疫情分析与可视化
    • ● 课堂思政:中国工匠精神
  • 项目二 电影数据分析(回归)
    • ● 任务简介
    • ● 使用一元线性回归分析电影票房数据
    • ● 使用多项式回归分析电影票房数据
    • ● 使用多元线性回归分析电影票房数据
    • ● 课堂实训:工资分析
  • 项目三 爬取房产租赁数据
    • ● 任务简介
    • ● 电影数据爬取
    • ● 房产租赁数据爬取
    • ● 房产租赁数据统计
    • ● 课后实训:二手房数据爬取
    • ● 课堂思政:疫情数据的爬取与可视化
  • 项目四 房屋租赁数据分析与可视化
    • ● 任务简介
    • ● 使用箱形图展现租赁价格分布特征
    • ● 使用散点图展现房屋面积与租赁价格的关系
    • ● 使用饼图展现不同行政区域的可租赁房源占比
    • ● 使用折线图可视化房间数与租赁价格的关系
    • ● 使用热力图展现地理位置的影响
    • ● 课后实训:二手房数据分析
    • ● 课堂思政:疫情数据分析与可视化
  • 项目五 身高与体重数据分析(分类器)
    • ● 使用身高、体重数据进行性别分类
      • ● 使用逻辑回归进行性别分类
      • ● 使用朴素贝叶斯进行性别分类
      • ● 使用决策树模型进行性别分类
      • ● 使用支持向量机进行性别分类
    • ● 使用支持向量机进行肥胖程度分类
    • ● 课后实训: 身高体重数据分析(分类器)
  • 项目六 鸢尾花分类
    • ● 任务简介
    • ● 使用K近邻对鸢尾花进行分类
    • ● 使用随机森林对鸢尾花进行分类
    • ● 使用神经网络对鸢尾花进行分类
  • 项目七 电影评分数据分析(聚类)
    • ● 任务简介
    • ● 使用BDSCAN确定质心个数
    • ● 使用K-Means对观影用户进行聚类
  • 项目八 人脸检测与人脸识别
    • ● 任务简介
    • ● 图像中的人脸检测
    • ● 视频中的人脸检测
    • ● 图像中的人脸识别
    • ● 视频中的人脸识别
    • ● 课后实训:眼睛与笑脸检测
    • ● 课堂思政:人工智能与弯道超车
  • 项目九 手写数字识别应用
    • ● 任务简介
    • ● 图像数据集准备
    • ● 使支持向量机识别手写数字
    • ● 使用神经网络识别手写数字
    • ● 课后实训:使用不同的机器学习方法识别数字手写体
  • 项目十  深度学习在行为识别中的应用
    • ● 任务简介
    • ● 使用卷积神经网络识别行为
    • ● 使用循环神经网络识别行为
    • ● 课后实训:电影评论数据分析
  • 项目十一 TensorFlow与神经网络
    • ● 任务简介
    • ● 使用单层神经网络预测花瓣宽度
    • ● 设计多层神经网络实现鸢尾花分类
    • ● 课后实训:卷积神经网络的实现与应用
  • 项目综合实训(17级学生案例)
    • ● 综合实训要求
    • ● 确定数据采集目标
    • ● 数据采集与预处理
    • ● 数据统计与分析
    • ● 数据分析与预测
    • ● 数据分类应用
    • ● 17级实训案例:二手车数据获取与市场分析
课程简介

一、教学目的

  本课程的前导课程为《Python语言及其应用》、《大数据统计分析基础》、《数据采集与预处理》。机器学习是大数据分析中的一个核心技术。本课程的定位是通过任务引领式的实践操作掌握大数据分析相关的机器学习方法,让学生学会使用合适的机器学习方法解决不同行业、不同业务领域的数据分析需求,培养学生的实践动手能力、自主学习能力、团队合作能力、创新能力等,为今后从事数据挖掘、人工智能应用服务岗位工作打下坚实的基础。

  为学好本课程,请大致了解本课程的基本要求及授课目标:

  你也可以展开想一想,说一说你所了解的人工智能:

二、课程设计 

  传统的机器学习课程的教学只是针对机器学习方法的理论进行讲授,理论知识点讲完后,没有实践应用配合教学,学生不会灵活地综合各知识点进行数据分析应用,无法真正将所学的知识应用到实际的开发过程中。在信息时代,提倡把“知识”放在问题中,放到现实中,让学生通过收集信息、分析信息、处理信息和运用信息,主动地探索、发现、体验和解决问题,从而培养获取新知识和利用知识进行创新的能力。

  为了提高学生的技能和改变以前的教学情况,信息技术系大数据教研室经过多年的教学模式研究以及培养方案探索,认为项目式、模块化教法更加契合高职需求。本课程要求体现一周项目、学期工程等模块化教法改革,建立可视化的里程碑,激发学习兴趣、提升教学效果。因此,课程整体设计以项目应用为导向,把机器学习相关的知识点嵌入相应的项目实训中,让学生明确如何利于所学的知识来解决问题,通过项目实训和课堂实训巩固所学知识,符合高职学生的认知规律。倡导实施“教、学、做、训”的一体化教学,掌握好知识的同时,能很好的应用所学知识和所学技能,最终使学生切实掌握大数据分析技术,培养学生成为面向社会的实践型人才。

  本课程总课时为68学时。通过融入经典的机器学习案例和详尽的实践指导步骤,有利于学生的理解与学习。该课程理念要求充分的调动学生思考和动手能力,先做后教,精讲多练,实验课时约占到了总课时的2/3以上,使学生在“做中学、学中探”,课程均在计算机房完成。

三、主要教学内容         

(制作:大数据1802 谢佳佳)

四、课程考核

  综合评价(100分)=过程考核(60分)+期末考核(40分)

(1)过程考核占60分:

  ①出勤(20%):扣分制(旷课1次-20分,请假1次-10分)

  ②课堂表现 (15%):基础分60分(迟到/早退1次-5分,表现好/差1次+/-5分)

  ③超星平台学习(15%):加分制(根据平台学习、作业完成情况计算

  ④作业情况(50%) :加分制(每次线下实验报告完成情况,按实际得分计算)

(2)终结性考核(考查)占40分:通过综合实训大作业形式开卷上机考查