综合性案例——北京冬奥会线上销售大数据分析
上一节
下一节
【综合性案例】
Iris 鸢尾花数据集是一个经典数据集,在统计学习、数据挖掘和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
数据集分析一共150行数据,分别为三种种类。
| 种类 | 代表数字 |
|---|---|
| setosa | 0 |
| versicolor | 1 |
| virginica | 2 |
四种特征
| 特征 | 翻译 |
|---|---|
| sepal length (cm) | 萼片长度(厘米) |
| sepal width (cm) | 萼片宽度(厘米) |
| petal length (cm) | 花瓣长度(厘米) |
| petal width (cm) | 花瓣宽度(厘米) |
要求:
针对iris数据集,创建一个决策树模型,绘制出决策树,并进行分析。
【过程与建议】
为了顺利开展本项目的研究,建议你组建研究小组,在充分理解活动要求的基础上,分工协作,共同开展本次研究。
研究工作可以分为两个层次:
1、第一个层次可以用WEKA软件,实施该项目;
2、第二个层次可以用PYTHON编写程序,实施该项目;
每个小组构建一个模型,分工完成数据质量分析、数据特征分析、数据预处理、决策树挖掘。
【评价标准】
根据项目所涉及内容的严谨性及实际展示效果,对自己完成项目的情况进行客观的评价,并思考后续完善的方向。将评价结果和完善方案填写在下面的表格中。
评价条目 | 说明 | 评分 | 评分主要依据 | 后续完善方向 |
选择技术 | 所选择的技术具有先进性,对社会和技术的发展有重要影响 | |||
选择依据 | 小组共同形成的技术选择,依据清晰且具有说服力 | |||
小组合作 | 小组分工合理、协作密切、合作有成效 | |||
演示文稿 | 演示文稿制作精美、内容清晰、逻辑性强,包含所有要求的内容 | |||
展示效果 | 在规定时间内有条理地、清晰地介绍研究成果 |

