目录

  • 1 获取数据确定选题
    • 1.1 确定研发目标
    • 1.2 根据所选数据及题目进行调研
    • 1.3 了解数据特点及含义
  • 2 准备数据需求分析
    • 2.1 设计数据库或数据存储
    • 2.2 将收集的异构数据集中管理
    • 2.3 完成数据清理等数据准备工作
    • 2.4 完成需求分析
  • 3 分析数据设计功能
    • 3.1 将数据可视化方式
    • 3.2 从不同维度显示数据
    • 3.3 发现数据特点并设计功能
    • 3.4 完成系统设计
  • 4 训练模型实现功能
    • 4.1 确定适合的机器学习算法
    • 4.2 使用训练数据构建模型
  • 5 测试模型
    • 5.1 使用测试数据测试模型
    • 5.2 根据测试情况确定测试参数
  • 6 功能完善
    • 6.1 通过网站等提供良好用户体验访问智能化功能
    • 6.2 测试基于系统的智能化功能
  • 7 实训报告
    • 7.1 完成实训报告
    • 7.2 完成结题答辩
  • 8 教学资源
    • 8.1 任务书
    • 8.2 指导书
了解数据特点及含义

以UCI数据集的Flags数据集为例,

该数据集有194条数据,共30个特征列。

其中,属性信息:

1.名称:相关国家的名称

2.土地质量:1=N。美国,2=S。美洲,3=欧洲,4=非洲,4=亚洲,6=大洋洲

3.区域:地理象限,基于格林威治和赤道;1=NE,2=SE,3=SW,4=NW

4.面积:千平方公里

5.人口:以百万计

6.语言:1=英语,2=西班牙语,3=法语,4=德语,5=斯拉夫语,6=其他印欧语,7=汉语,8=阿拉伯语,9=日语/土耳其语/芬兰语/马加亚语,10=其他

7.宗教:0=天主教,1=其他基督教,2=穆斯林,3=佛教,4=印度教,5=民族,6=马克思主义,7=其他

8.条:标志中垂直条的数量

9.条纹:旗帜中水平条纹的数量

10.颜色:旗帜中不同颜色的数量

11.红色:如果旗帜上没有红色,则为0,如果旗帜上有红色则为1

12.绿色:绿色相同

13.蓝色:蓝色相同

14.金色:金色(也是黄色)

15.白色:白色相同

16.黑色:黑色相同

17.橙色:橙色(也是棕色)

18.主色调:旗帜中的主要颜色(通过取最上面的色调来决定平局,如果失败,则取最中间的色调,如果失败则取最左边的色调)

19.圆圈:旗帜中的圆圈数

20.十字架:(直立)十字架的数量

21.斜线:对角线交叉的数量

22.四分之一:四分之一部分的数量

23.太阳星:太阳或星星符号的数量

24.新月:如果出现新月符号,则为1,否则为0

25.三角形:如果存在任何三角形,则为1,否则为0

26.图标:如果存在无生命图像(例如,船),则为1,否则为0

27.animate:如果存在动画图像(例如,鹰、树、人手),则为1,否则为0

28.文本:如果旗帜上有字母或文字(例如座右铭或口号),则为1,否则为0

29.左上角:左上角的颜色(向右移动以决定平局)

30.右下角:左下角的颜色(向左移动以决定平局)

属性中,颜色、所在洲、地理象限、语言、宗教等可以设计成辅助表。