学习目标
掌握一元线性回归(Linear Regression)、多项式回归的概念。
掌握sklearn中一元线性回归、多项式回归的应用。
掌握sklearn中数据预处理的方法,特别是范围缩放、标记映射的使用方法。
掌握sklearn中训练集(trainingset)与测试集(testing set)的切分方法。
了解多元线性回归及其应用。
初步学会散点图、折线图的作图方法,熟练掌握柱状图的作图方法及参数设置
背景知识
目前,网络上公开了很多的电影数据,比如Movie Database网站就提供了一份数据集,主要包括1960—2015年上映的部分电影的样本集。读者可以从上面下载数据集进行分析。电影数据项主要包括:电影名称、电影放映日期、导演、电影分类、电影评分数据及票房数据等。本项目将通过回归方法对2017年浙江省高职高专院校技能大赛“大数据技术与应用”赛项试题中使用的电影历史数据进行分析,并对未来的票房与评分进行简单预测。对于初学者,我们在内容的讲解上更注重于方法的使用过程与技巧,而并不偏重于数据的多样性、复杂性和分析方法应用的准确性、适用性。方法的适用性,将在应用实践、经验积累与总结过程中不断引入,循序渐进,慢慢展开。
机器学习背景知识讲解详见以下视频:
你来说一说,机器学习,欢迎大家参与下面的讨论。
本项目第1-2次课(第3-4周)
任务一:电影数据分析与预测(一元线性回归)
数据读取
数据整理
数据分析与挖掘
数据可视化
数据预测
掌握以下知识点:

(来源:大数据1801 董露丹 )
具体实现过程可参考PPT及后续讲解内容,即3.2
下载并完成实验报告,找到发布的作业并上传至平台:
word版
ipynb版
本次实验用到的数字资源
本项目第3次课(第5周)
任务2:电影数据分析与预测(多项式回归)
掌握以下知识点:

(来源:大数据1801 董露丹 )
实现过程可参考PPT及后续讲解内容,即3.3
任务3:电影数据分析与预测(多元线性回归)
实现过程可参考PPT及后续讲解内容:参见3.4
下载并完成以下实验报告,找到发布的作业并上传至平台:
word版
ipynb版
本次实验用到的数字资源
第4次课(应用练习一)
任务4:薪资数据分析与预测(巩固练习)
实现过程可参考PPT及后续讲解内容:参见3.4
下载并完成以下实验报告,找到发布的作业并上传至平台:
word版
ipynb版
本次实验用到的数字资源

