通过综合实训,对学过的基本知识方法和方法进行练习和巩固,具备初步的独立完成内容设计的能力,提高综合运用所学知识和技能解决若干简单问题的能力,为今后从事工作打下坚实的基础。
【学习目标】
进一步掌握网络爬虫实现对数据的采集;
掌握对数据预处理的方法;
掌握对数据统计与分析的流程;
进一步掌握数据可视化的实现过程;
学会使用机器学习在现实生活中的应用;
熟悉各种不同机器学习方法的适用场景;
学会调整不同机器学习方法的参数调整过程;
熟练掌握机器学习方法的Python实现。
【综合实训要求】
(1)撰写爬虫,抓取任意主题的网络实时数据(可以是电影、房产、购物、股票、天气或空气质量、评论信息等),范围题材不限。尝试爬取相关图像数据,用于做更多的信息提取与分析。
(2)运行爬虫获取的有效数据样本500条以上、可分析的数据项8列以上。
(3)对获取的数据项进行处理,包括缺失值的处理、唯一性校验、有效性检验等。
(4)计算中间结果,统计各类重要信息,并可视化展现统计结果。
(5)使用机器学习方法对数据进行分析与预测:比如房价的影响因素分析需要从不同方面、不同维度展开,也可以从时间维度进行预测房价的走势;
(6)完成数据与数据决策的应用:比如可以使用聚类算法找出异常房价或符合条件的低价房源通告;
(7)撰写数据分析与总结报告,要求内容完整、详实,要有主线,重点突出,图文并重。
【实训方式】
团队作业,分组完成,汇报成果。
【实训学时分配】
建议的学时分配如下表所示。

近年来,得益于国民经济的持续快速增长以及国家对于文化产业的支持,整个电影文化与产业环境持续改善。作为文化娱乐市场重要组成部分的电影市场已连续多年实现电影票房的快速增长,同时,吸引了各类社会资本(国有、民营、外资)积极进军电影业,从而进一步推动了电影业的良性快速发展。
投拍一部电影,需要进行调查分析,深入了解电影市场的情况,才能提高票房收入,降低投资风险。为更好地分析电影总体发展状态及投资的可行性,需要对原电影数据进行采集、清洗、处理、分析和预测。良好的分析和预测方法可以帮助投资者分析和投资电影,以期获得更高的收益。
一般地,从市场上可获取的有价值的电影数据主要包括:电影名称、电影投映时段、导演、电影分类、电影评分数据及票房数据等。下面以“电影数据”的获取、处理与分析为例,说明所学内容的综合应用过程。

