个人介绍
数据挖掘技术

主讲教师:程军锋

教师团队:共5

  • 方欢
  • 陈小奎
  • 李子煊
  • 印玉兰
  • 方娜
学校: 安徽理工大学
开课院系: 数学与大数据学院
专业大类: 计算机
开课专业: 数据科学与大数据技术、信息与计算科学、应用数学、应用统计学
课程英文名称: Data Mining Technique
学分: 2
课时: 32
课程介绍
      《数据挖掘技术》全面介绍数据挖掘的原理、方法和算法。主要内容包括数据挖掘的基本概念、数据挖掘算法的数据类型、输入和输出、决策树、数据挖掘的预处理和后处理、关联规则挖掘、分类和回归算法、支持向量机、聚类分析及多维数据可视化。 
      《数据挖掘技术》课程是我校数据科学与大数据专业,或以数据分析与挖掘为主的信息与计算科学、应用统计学等专业的一门主干基础基础课程。本课程主要介绍了数据挖掘概述、数据预处理、贝叶斯分类方法、决策树分类方法、聚类分析方法、回归分类方法、人工神经网络、支持向量机等。其前导课程为《python程序设计与数据分析》等,后续课程有《机器学习》、《深度学习》、《数据挖掘案例编程》等。
    

教师团队

方欢

职称:教授

单位:安徽理工大学

部门:数学与大数据学院

陈小奎

职称:副教授

单位:安徽理工大学

部门:数学与大数据学院

职位:实验室主任

李子煊

职称:副教授

单位:安徽理工大学

部门:马克思主义学院

印玉兰

职称:副教授

单位:安徽理工大学

部门:数学与大数据学院

方娜

职称:讲师

单位:安徽理工大学

部门:数学与大数据学院

教学方法

教师采用多种信息化教学手段,并贯穿教学准备环节(课前)、课堂交互环 节(课中)和课后提升环节(课后)整个教学过程,逐级达到教学目标。课前“前 置预学"“学情诊断”,课中“明确目标”“探究学习”“ 解决问题”“成果展示” “深化巩固” ,课后“反思分享”“拓展提升”三个环节九个步骤。教学活动充 分体现线上线下混合特征,具体来说线上活动主要包括“发布任务,推送资源” “课前预学、 诊断学情”“可视调查,确定问题”等,线下活动主要包括“联系 实际,回忆旧知”“创设情境, 明确目标”“小组交流,协作探究”等。课程讲 授过程中不仅注重学生知识的掌握、能力的提升,还要重点关注学生思想品德品 质的塑造,帮助学生认清自己肩负着的重大历史使命和时代责任,通过课程内容 中涉及到的标准、规范、政策等有意识地引导学生正确理解组织纪律与规章制度,增强学生的自律能力,最终落实立德树人根本任务,培养德智体美劳全面发展的 社会主义建设者与接班人。 学生成绩采用多种成绩加权求和的方式,其中课程考试成绩占 63%,主要考 核学生对所学知识的掌握程度;平时成绩占 27%,包括出勤率、课堂表现、平时 作业、阶段测试、综合实践、大作业、小组汇报等;实验成绩占 10%,主要根据 学生的动手能力及实验报告质量进行评分。 传统对于教学的评价单一,不能客观、全面地映射出存在于教学问题背后的 深层原因。本课程强调融合创新,采用自评、互评、教师评价等多方式,从教学 目标达成、师生交流互动、课堂教学容量等多视角进行评价。如运用新型信息技 术,对教师教学过程、教师日常活动数据、学生学习过程和学习行为进行记录、 分析,从而更为科学、准确的反映教学的真实情况。

教学条件

《数据挖掘》课程立足于“大数据分类与预测方法”省级智慧课堂试点项目,已经通过学习通开设了完整的在线教学平台,具有完整的理论课程教学大纲、实践课程教学大纲,同时利用SPSS和Python两种平台软件进行了讲解课程,所有的视频资料已经上传至学习通;课件方面,已经具备MOOC课程配套的PPT,并且《数据挖掘技术》课程同步上线学堂在线MOOC课程,可以方便社会人员进行在线学习;学生学习效果良好。课程教学基本制度健全,充分利用线上线下相结合的方式,注重学生学习过程评价,执行情况良好,所有相关的教学档案资料齐全、规范;教学采用国家级规划教材,相关的实践课程讲义已经初步完善。

教学效果

《数据挖掘》课程网络教学平台建设完成后,已面向数学与大数据学院学院、空间地理信息与测绘学院相关专业学生开放使用,大大提高了教学质量和学生的学习效率。实践证明,该模式能够极大的调动学生自主学习的积极性,引导学生主动参与和思考,提高了学生的求知欲,有利于学生对关键技能的掌握,提高了动手操作能力,开阔了学生的视野,激发了学生的创新能力,最终达到全面提升学生综合素质的目的。

近3年,通过课程的第二课堂的指导,学生获得中国计算机程序设计大赛国家级二等奖1项、省级一等奖4项,指导本科生发表论文6篇,申请软件著作权授权7项。

参考教材

教学视频推荐:适合学习完本课程基本入门后做提升学习。

数据挖掘技术 - 安徽理工大学 - 学堂在线 (xuetangx.com)

https://www.xuetangx.com/course/aust08071009169/18104277?channel=i.area.recent_search


参考书籍:

[1] 孙家泽. 数据挖掘算法与应用[M].清华大学出版社,2020.

[2] 龙马高新教育. Python 3 数据分析与机器学习实战[M].北京大学出版社,2018.

[3] 董付国. Python数据分析、挖掘与可视化[M]. 人民邮电出版社,2020.

[4] 宋天龙. Python数据处理、分析、可视化与数据化运营[M]. 人民邮电出版社,2020.


理论课程 教学大纲

数据挖掘技术教学大纲

 

课程名称数据挖掘技术     

英文名称:Data Mining Technology

课程编号:1304015130

课程性质专业核心课程

先修要求离散数学线性代数、概率论与数理统计、程序设计语言、数据库原理

适用专业数据科学与大数据技术专业

任课老师:方欢,方贤文,陈小奎,印玉兰

 

教学目标

通过本课程的理论教学和实验训练,使学生具备以下知识和能力:

目标1:了解数据挖掘技术的整体概貌,了解数据挖掘技术的主要应用及当前的研究热点问题,了解数据挖掘技术的发展方向,掌握最基本的概念、算法原理和技术方法;

目标2:了解数据质量,掌握数据预处理方法;

目标3:掌握数据挖掘的定性归纳技术、关联挖掘、聚类分析、分类方法、预测方法等内容,掌握关联规则分析如何通过数据挖掘软件实现;

目标4:掌握基本数据挖掘技术与工具,综合运用所学算法,在相关的数据挖掘平台及软件上解决给定的数据分析问题;

目标5:通过课堂讲授、实例分析,掌握设计和开发数据挖掘算法和系统的初步能力。

目标6:(课程思政教学目标)通过学习,了解目前国内数据挖掘研究的相关成果,熟悉我国学术界在数据挖掘领域的领军任务,理解我国信息产业的“卡脖子”项目清单,树立产业爱国的坚定决心,具备为国家信息化产业发展做贡献的基本能力。

课程教学目标毕业要求的对应关系

教学目标

毕业要求

支撑强度

目标1

   能够利用数学、计算机等自然科学和工程科学的基本原理及数据科学专业知识,能将统计学、数据分析与处理基础和专业知识运用到大数据系统或者复杂工程问题的恰当表述之中,能将数据科学与大数据技术的专业知识用于数据分析与处理、大数据系统设计、控制和改进中,能将工程和专业知识用于数据分析与处理、大数据信息系统开发与设计过程中,能针对一个复杂信息系统或过程建立合适的数据架构和处理模型,并利用恰当的算法求解,来解决数据分析与处理、大数据信息系统的开发与设计过程中的复杂工程问题。(毕业要求1)

M

目标2

能识别和判断大数据工程问题的关键环节和部件,能认识到解决问题有多种方案可选择,并通过分析文献寻求可替代的解决方案,能正确表达一个工程问题的解决方案;能够利用数理统计计算机科学相关的基础理论和知识以及文献资料对数据进行分析处理,或者对案例进行大数据系统构建,能对大数据开发技术进行经济评价,并能对解决方案的合理性进行验证。(毕业要求2)

H

目标3

   具有工程实习和社会实践经历,能根据用户要求确定设计目标熟悉与数据分析与处理大数据信息系统设计相关方法和技术、产业政策和法规,并能在其现实约束条件下,通过技术经济评价对设计方案进行可行性研究能客观评价数据分析与处理、大数据信息系统的开发设计过程对社会、健康、安全、法律以及文化的影响;能通过建模、大数据系统开发等手段进行数据处理大数据信息软件系统实现,对相关设计方案进行优化设计,体现创新意识能够应用数值分析和挖掘大数据技术的基本原理和方法开发、设计数值分析和挖掘、大数据软件系统的合理方案,并能够使用图纸、报告或者实物等形式,呈现设计结果。(毕业要求3)

H

目标4

掌握现代分析技术、工具的使用方法,能够识别复杂工程问题中的各种制约条件,明确各种方法的局限性,能够采用正确的试验方法并选择合适的程序设计语言,分析、设计和维护软件系统,能够基于信息与计算专业理论,根据对象特征,选择合适的研究路线、设计可行的试验方案,能利用现代技术手段开展试验研究,能正确采集、整理试验数据,对试验结果进行关联、建模、分析处理,获取合理有效的结论。能够识别复杂大数据工程问题中的各种制约条件,明确各种方法的局限性能够采用正确的试验方法并选择合适的程序设计语言分析设计维护大数据信息系统,通过信息综合得到合理有效的结论。(毕业要求4,5)

M

目标5

能够针对数据科学与大数据技术工程领域复杂工程问题,开发、选择与使用恰当的技术、资源、现代工程工具和信息技术工具,能正确采集、整理试验数据,对试验结果进行关联、建模、分析处理,获取合理有效的结论包括对复杂工程问题的预测与模拟,并能够理解其局限性能够基于工程相关背景知识进行合理分析,评价数据科学与大数据技术专业工程实践和复杂工程问题解决方案对社会、健康、安全、法律以及文化的影响,并理解应承担的责任。(毕业要求67

H

目标6

尊重生命、关爱他人,主张正义、诚实守信,具有人文知识、思辨能力、处事能力和科学精神,理解社会主义核心价值观,了解国情,维护国家利益,具有推动民族复兴和社会进步的责任感,具有人文社会科学素养、社会责任感,理解工程伦理的核心理念,了解软件工程师的职业性质和责任,在工程实践中能自觉遵守职业道德和规范,具有法律意识,能够在信息与计算工程实践中理解并遵守工程职业道德和规范,履行责任。(毕业要求8

M

备注H-高度支撑;M-中度支撑;L-一般支撑。

 

课程教学主要内容

第一章 数据挖掘概述 (支撑教学目标16)

第一节 数据挖掘的概念和任务

第二节 十大经典挖掘算法

第三节 开放数据获取来源

第四节 数据挖掘常见误区

第五节 数据挖掘中的隐私保护

 

第二章 认识数据 (支撑教学目标126)

第一节 数据对象和数据属性

第二节 数据的统计描述

第三节 数据可视化

第四节 数据相似性度量

第五节 数据可视化综合案例分析

 

第三章 数据预处理 (支撑教学目标12)

第一节 数据清理

第二节 数据集成和变换

第三节 数据归约

第四节 离散化和概念分层产生

 

第四章 分类与预测方法 (支撑教学目标3456)

第一节 分类与预测的基本概念

第二节 常见术语和记号

决策树分类方法

朴素贝叶斯分类

决策树方法的分析与比较

第六节 KNN分类算法

第七节 分类与预测算法的性能评价方法

第八节 高级分类方法

 

第五章 回归分析(支撑教学目3456)

第一节 基本概念

第二节 线性回归的案例编程

第三节 逻辑回归

第四节 岭回归

第五节 CART分类回归树

 

关联规则挖掘(支撑教学目3456)

第一节 基本概念

第二节 闭项集和极大频繁项集

第三节 Apriori算法及其应用

第四节 关联挖掘常见的误区

第五节 FP

 

聚类分析 (支撑教学目标3456)

第一节 聚类方法概述

第二节 主要聚类方法的分类

第三节 划分方法

第四节 层次方法

第五节 基于密度的方法

第六节 孤立点分析

第七节 聚类算法案例实战  

 

实验课程内容 (支撑教学目标345)

实验一 数据统计描述与可视化

实验二 数据预处理与规范化

实验三 朴素贝叶斯和决策树预测方法       

实验四 分类预测方法的性能评价和评估优化方法  

实验五  线性回归案例编程实践

实验六  weka软件综合案例应用

实验七  K均值聚类挖掘算法

实验八  数据挖掘综合案例分析 

实验课具体由 数据挖掘技术 课程同时执行。

 

建议教学进度

第一章 数据挖掘概述               学时数 4

第二章 认识数据                   学时数 2

第三章 数据预处理                 学时数 4

第四章 分类与预测方法             学时数 8

第五章 回归分析                   学时数 4

第六章 关联挖掘                   学时数 4

第七章 聚类挖掘                   学时数 6

数据挖掘技术 实验                 学时数 16

教学方法

1. 阐述基本原理,理论联系实际,培养学生创新能力;

2. 课堂讲授注意采用启发式教学,激励学生思考;利用投影、幻灯、录相片、多媒体课件等教学手段,强化讲课效果

3. 结合现场,通过案例分析,强化学生数据挖据工程理论、思维方法的建立和应用;

4. 以课堂讲为主,并以实验课、课外作业、生产实习等教学环节作为课程学习的补充,理论教学与实验训练结合,强化数据挖据观点的建立和工程分析能力的培养。

考核方式

闭卷考试、线上课程自学成绩

成绩评定方法

    笔试成绩60%,平时成绩40%(含课程作业,实验成绩)

主要参考书籍

1. Jiawei Han、Micheline Kamber等著,范明、孟小峰译,数据挖掘:概念与技术(第3版),机械工业出版社,2012

2、朱玉全、杨鹤标,数据挖掘技术,东南大学出版社,2006

3.张云涛、龚玲,数据挖掘原理与技术,电子工业出版社,2004

4、陈京民,数据仓库与数据挖掘技术,电子工业出版社,2002

九、在线资源

数据挖掘技术 - 安徽理工大学 - 学堂在线 (xuetangx.com)

https://www.xuetangx.com/course/aust08071009169/18104277?channel=i.area.recent_search


实验课 教学大纲


数据挖掘技术实验大纲

 

课程名称数据挖掘技术     

英文名称:Data Mining Technology

课程编号:1304015130

课程性质专业核心课程

先修要求高等数学线性代数、概率论与数理统计、程序设计语言、数据库原理

适用专业数据科学与大数据技术专业

任课老师:方欢,方贤文,陈小奎王丽丽

 

教学目标

    通过本课程的理论教学和实验训练,使学生具备以下知识和能力:

目标1:了解数据挖掘技术的整体概貌,了解数据挖掘技术的主要应用及当前的研究热点问题,了解数据挖掘技术的发展方向,掌握最基本的概念、算法原理和技术方法;

目标2:了解数据质量,掌握数据预处理方法;

目标3:掌握数据挖掘的定性归纳技术、关联挖掘、聚类分析、分类方法、预测方法等内容,掌握关联规则分析如何通过数据挖掘软件实现;

目标4:掌握基本数据挖掘技术与工具,综合运用所学算法,在相关的数据挖掘平台及软件上解决给定的数据分析问题;

目标5:通过课堂讲授、实例分析,掌握设计和开发数据挖掘算法和系统的初步能力。

目标6:(课程思政教学目标)通过学习,了解目前国内数据挖掘研究的相关成果,熟悉我国学术界在数据挖掘领域的领军任务,理解我国信息产业的“卡脖子”项目清单,树立产业爱国的坚定决心,具备为国家信息化产业发展做贡献的基本能力。

 

课程教学目标毕业要求的对应关系

教学目标

毕业要求

支撑强度

目标1

    能将工程和专业知识用于数值分析与计算、软件开发与设计过程的优化方法能针对一个复杂系统或过程建立合适的数学模型,并利用恰当的算法求解来解决数值计算软件开发设计过程中的复杂工程问题。(毕业要求1

M

目标2

能够利用数理科学、计算机科学相关的基础理论和知识以及文献资料对数据进行数值计算,或者对案例进行软件建模,能对软件设计技术进行经济评价,并能对解决方案的合理性进行验证。(毕业要求2)

H

目标3

   能通过建模、软件开发等手段进行数值计算和系统软件实现,对相关设计方案进行优化设计,体现创新意识,能够应用数值分析与计算、软件工程的基本原理和方法开发、设计数值计算、软件系统的合理方案,并能够使用图纸、报告或者实物等形式,呈现设计结果。(毕业要求3)

H

目标4

掌握现代分析技术、工具的使用方法,能够识别复杂工程问题中的各种制约条件,明确各种方法的局限性,能够采用正确的试验方法并选择合适的程序设计语言,分析、设计和维护软件系统,能够基于信息与计算专业理论,根据对象特征,选择合适的研究路线、设计可行的试验方案,能利用现代技术手段开展试验研究,能正确采集、整理试验数据,对试验结果进行关联、建模、分析处理,获取合理有效的结论。(毕业要求4)

M

目标5

能识别和判断复杂工程问题的关键环节和部件,能认识到解决问题有多种方案可选择,并通过分析文献寻求可替代的解决方案,能正确表达一个工程问题的解决方案;能够利用数理科学、计算机科学相关的基础理论和知识以及文献资料对数据进行数值计算,或者对案例进行软件建模,能对软件设计技术进行经济评价,并能对解决方案的合理性进行验证。(毕业要求2,3)

H

目标6

尊重生命、关爱他人,主张正义、诚实守信,具有人文知识、思辨能力、处事能力和科学精神,理解社会主义核心价值观,了解国情,维护国家利益,具有推动民族复兴和社会进步的责任感,具有人文社会科学素养、社会责任感,理解工程伦理的核心理念,了解软件工程师的职业性质和责任,在工程实践中能自觉遵守职业道德和规范,具有法律意识,能够在信息与计算工程实践中理解并遵守工程职业道德和规范,履行责任。(毕业要求8

M

备注H-高度支撑;M-中度支撑;L-一般支撑。

 

实验教学主要内容(支撑教学目标345)

实验一  数据统计描述与可视化分析 实验

 

教学背景

数据的统计描述是数据挖掘开展的基本前提,数据可视化方法为数据使用者更加了解数据的特征和分布起到至关重要的作用。本次实验以数据统计描述及其常见的可视化方法为教学目标,重点锻炼学生对统计描述和可视化方法的程序编写能力。

教学目的

认知层面:熟悉python的环境运行,熟悉python的统计分析和图形可视化包库的导入与使用,通识高维数据的常见可视化方法。

知识层面:熟练pyechartsmatplotlib包库的导入,掌握常见的可视化图形,如条图、散点图、盒图、小提琴图的绘制方法,初步了解高维数据可视化的基本思路和实现技术。

能力层面:启发学生思考如何结合设计目的,运用可视化方法和技术,实现辅助分析目的的编程;熟练使用python编程语言对可视化函数的调用及其调参,培养学生应用所学知识的能力。

实验内容

iris数据集为分析对象,该数据分别通过如下两种方式加载。

1)通过anconda的dataset导入iris数据集;

2)通过附件给定的iris.csv。

本次实验要求完成如下功能:

1)选取iris数据的前两列和最后一列类别属性,绘制不同类别下的点状分布图;

2)画出iris数据前4个属性的盒图;

3)画出iris数据的对应的小提琴图;

4)画出iris数据的平行坐标图;

并比较分析这几种图形的特点,重点剖析盒图和小提琴图的优缺点,并具体讨论分析这四类图形可以使用的场合及其对应的分析目的。

教学重难点

重点:violionplot()方法,以及高维数据的平行坐标可视化。

难点:高维数据的平行坐标可视化。

 

实验二 数据预处理及规范化 实验

教学背景

高质量数据为后续的数据分析与挖掘提供良好的质量保证。为了获取高质量数据,数据清洗必不可少。缺失值处理以及数据规范化是数据清洗的常用方法和技术。本次实验以数据缺失值处理方法和数据规范化方法的软件编程为教学目标,重点锻炼学生对缺失值处理以及数据规范化操作的程序编写能力。

教学目的

认知层面:通识数据清洗的常见方法和技术,了解pythonpreprocessing包库函数,熟悉预处理包库中的常见参数含义。

知识层面:熟练preprocessing包库预处理函数的使用,如dropna, fillna Imputer等,掌握数据规范化的公式,理解和掌握min-maxZ-score以及sigmoid函数转换方法和公式。

能力层面:启发学生思考如何结合设计目的,运用数据规范化方法实现数据质量的提升,实现辅助分析目的的编程;熟练使用python编程语言对数据预处理相关的功能函数的调用及其调参,培养学生应用所学知识的能力。

实验内容

本次实验要求完成如下功能:

1)分别使用均值替代和全局替代的方式,对给定数据集中nan缺失值进行填充,并汇总输出每个属性列完成了多少频次的数据填充;

2)对给定的数据样本,自编函数实现min-maxZ-score以及sigmoid函数规范化;

3)对给定的数据样本,通过调用preprocessing包库的相关函数,实现min-maxZ-score以及sigmoid函数规范化;

4)比较所列举的三种数据规范化函数的特点,并分析每种方法的优缺点;

5)使用欧式空间距离,分别评价数据规范化前后数据样本两两之间的相似度。

教学重难点

重点:自编函数实现min-maxZ-score以及sigmoid函数规范化,以及数据缺失值处理方法,数据样本之间的相似度评价。

难点:数据样本之间的相似度评价。

 

 

实验三朴素贝叶斯和决策树预测方法实

    

教学背景

分类和预测方法是数据挖掘方法一类经典的有监督学习方法,在很多的实际场景应用中都有很高的应用价值。分类预测方法的种类较多,如决策树分类、贝叶斯分析、逻辑回归、多层感知机模型、K近邻等等。由于分类与预测方法的门类众多,导致学习的难度也较大。本次实验专注于朴素贝叶斯分类算法以及ID3决策树分类方法,通过课程知识点的理解,通过软件编程,训练学生在这两个算法上的实践能力。

教学目的

认知层面:通识数据分类与预测的常见方法,理解和掌握pythonDecisionTreeClassifier()函数以及NaiveBayes函数的调用方法,熟悉相关函数的调参;通识贝叶斯分类和决策树算法的自编程程序基本思路。

知识层面:熟练sklearn包库贝叶斯分类和决策树函数的使用,掌握分类预测算法的调参的基本思路,特别是决策树的调参,如树的深度和退出迭代计算的终止条件等,理解并能熟练区分自编函数和调用库函数实现分类与预测的异同。

能力层面:启发学生思考如何结合设计目的,运用数据分类与预测方法,实现数据类别标签的预测,实现决策支持的目的;熟练使用python编程语言对sklearn包库相关的功能函数的调用及其调参,培养学生应用所学知识的能力。

实验内容

本次实验要求完成如下功能:

1)通过调用库函数sklearn中的naive_bayes 相关方法实现购买电脑案例的分析预测,其中可调用的三种naive_bayes函数BernoulliNB, GaussianNB和 MultinomialNB

2)设计实验验证BernoulliNB, GaussianNB和 MultinomialNB中是否所有的输入样本都可以是0向量,或者是负值向量,请给出你的实验设计方案和实验结果分析。

3)构建ID3算法的决策模型,实现对电脑购买案例的决策树构建,要求最后输出树形结构。

教学重难点

重点:贝叶斯分类算法的函数调用,决策树模型的算法构建,决策树树型结构的输出。

难点:决策树树型结构的输出。

 

 

实验分类预测方法的性能评价和评估优化方法实验

 

教学背景

分类和预测方法的性能评价指标和性能评估方法优化是非常重要的,能够将多种方法在不同策略下实现的效果进行对比分析,也是数据挖掘学科进行科技论文写作的必要步骤。由于分类与预测方法的门类众多,如何使用“奥卡姆剃刀”原则来选择优化的方法是初学者面临的难题。本次实验对课程中的难点知识点进行程序剖析,如精准率P,召回率RF-score,K折交叉检验、样本测试集划分方法test_spilt,通过软件编程,训练学生具备分类预测算法的评价的实践能力。

教学目的

认知层面:通识分类与预测方法的性能评价指标,理解和掌握python精准率P,召回率RF-score性能评价指标的函数调用方法,理解K折交叉校验和静态的测试集划分函数test_spilt的调用方法,并熟悉其中超参数的调参方法

知识层面:熟练sklearn包库中分类预测算法的性能指标评价语句,掌握K折交叉校验和静态的测试集划分函数test_spilt的函数程序编写

能力层面:启发学生思考如何结合设计目的,运用数据分类与预测方法的性能评价指标,实现预测方法的性能评价,实现决策支持的目的;具备优化分类预测方法性能评估的基本策略,建立数据合理使用和划分的意识,培养学生应用所学知识的能力。

实验内容

本次实验要求完成如下功能:

1)通过breast_cancer数据集,利用已有的贝叶斯分类或决策树分类方法,实现精准率P、召回率R的分析,查看是否存在P,R指标的不可调和的矛盾;

2)在iris数据集上,验证是否存在P,R指标的不可调和的矛盾;

3)分别使用划分测试集和K折交叉检验的方法,分析和比较breast_cancer数据在两种不同的性能评估方法下,其对应的Fscore是否有了优化。

教学重难点

重点:理解P,R指标在优化趋势上的矛盾,理解Fscore指标的调和平均的含义;K折交叉检验方法的实施

难点:理解Fscore指标的调和平均的含义。

 

实验五线性回归案例编程实践实验

 

教学背景

线性回归分为一元线性回归和多元线性回归,线性回归对于连续变量的拟合和预测十分重要。本实验重点通过程序实践的方式,加强课程知识点的理解和掌握,特别是线性回归方法的库函数调用方法、算法性能的评估与计算、拟合方程的输出以及残差、残差平方和的计算。尤其需要注意的是,线性回归区别与逻辑回归,虽然在函数调用方法上非常类似,但是逻辑回归属于分类方法。

教学目的

认知层面:通识线性回归的基本理论和相关概念,理解和掌握python线性回归linearregression()函数调用方法,理解残差和样本的残差平方和的计算方法,理解逻辑回归与一般线性回归的不同之处

知识层面:熟练sklearn包库中线性回归算法的调用方法,及其性能指标评价语句,掌握scikit-learn自带数据集的查找与使用方法。

能力层面:启发学生思考如何结合设计目的,合理选择线性回归和逻辑回归的方法,实现决策支持的目的;具备优化线性回归方法性能评估的基本策略,建立数据合理使用和划分的意识,培养学生应用所学知识的能力。

实验内容

本次实验要求完成如下功能:

一、波士顿房价的预测实验

1)明确sklearn中波士顿房价数据的文件路径;

2)利用线性回归函数实现波士顿房价的预测,并对程序中的randomstate进行调参,对比性能指标的F-SCORE说明randomstate对score是否有影响;

3)查阅工具书,明确train_test_spilt函数用处的是什么?调用格式是什么?

二、调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下:

使用年限 

2

3

4

5

6

维修费用 

2.2

3.8

5.5

6.5

7.0

1)求线性回归方程;

2)由(1)中结论预测第10年所支出的维修费用;

3)求第二点样本点的残差。

教学重难点

重点:一元线性回归和多元线性回归的函数调用方法;线性回归质量的评估;

难点:线性回归方程及残差计算。

 

实验六 weka软件综合案例应用

教学背景

Weka3.8.5是一款开放使用的数据分析与挖掘软件,其中包括了分类与预测、回归、关联挖掘、密度聚类等各类算法约50余种。本次实验以weka软件为基础,锻炼学生使用现有挖掘软件进行数据分析与挖掘工作的基本工作方法。

教学目的

认知层面:通识weka软件的安装与环境部署,理解和掌握各类数据分析与挖掘方法在weka中的调用方法,对导入到weka中的外部文件存在的乱码问题,理解问题发生的原因。

知识层面:熟练weka软件中的分类与预测方法、线性回归分析、关联挖掘方法的调用,掌握对weka软件分析结果的解读方法。

能力层面:启发学生思考如何结合设计目的,合理选择weka现有的软件工具包来进行数据分析与挖掘,实现决策支持的目的;具备对weka软件导入外部数据存在的乱码问题进行纠正,培养学生应用所学知识的能力。

实验内容

本次实验要求完成如下功能:

一、weka软件的安装与使用

1)安装weka3.8.5;

2“学生33门课程考试成绩.xls”数据存储为csv,并通过weka3.8.5将该数据导入到weka,并对每个班级的考试成绩进行可视化分析;

3)查阅工具书,解决外部中文字符导入存在的乱码问题,请写出具体的解决方案及步骤。

二、查看weka中的相关算法,并实现以下功能:

1)利用weka实现波士顿房价预测问题

2)利用weka实现iris数据集的分类与预测,要求所使用的方法不少于4种

3)练习使用关联挖掘算法,利用weka完成自带超市购物数据的关联规则挖掘,并对分析解决进行解读。

教学重难点

重点:weka软件的外部数据导入问题;weka软件的中文乱码问题解决;weka软件解决经典的数据挖掘任务。

难点:weka软件的中文乱码问题解决;weka软件解决经典的数据挖掘任务。

 

实验七 K均值聚类挖掘

教学背景

聚类分析是数据挖掘经典的无监督学习方法,聚类分析在教学过程体系中主要讲解了K均值聚类、K中心点聚类以及密度聚类DBSCAN方法。本次实验课程主要研究Kmeans聚类方法进行软件实践,增强学生学以致用的能力。

教学目的

认知层面:通识Kmeans算法的基本思路,理解和掌握sklearn中的Kmeans方法的调用,理解实际应用中的各种数据的聚类分析目标,如基准数据集或行业实践数据集,通识聚类分析对于智能决策的支持作用。

知识层面:熟练sklearn中的Kmeans方法的调用,了解不同的距离函数对于聚类算法的影响,熟练和掌握Kmeans方法的调参以及结果解读。

能力层面:启发学生思考如何结合设计目的,合理选择软件工具包来进行数据聚类分析与挖掘,实现决策支持的目的;具备K均值聚类方法应用于实际行业数据中可能存在的维度选择能力,具备较好的实际应用能力。

实验内容

本次实验要求完成如下功能:

1)随机产生1000个样本点,这些样本的需要利用至少3种不同的随机函数进行产生,再对随机生成的1000个点,利用k均值聚类方法进行聚类,并对分类结果进行可视化作图;

2)利用自带的Kmeans函数针对iris数据和贷款数据进行聚类分析,并进行实验结果的分析,判断结果是否符合预期。

3)对“33门课程的考试成绩”进行聚类分析,分析的角度分别从课程和学生的两个维度出发,并对分析结果进行解读,说明使用聚类可以达到何种的决策支持目标?

 

教学重难点

重点:sklearn中的Kmeans方法的调用;不同的距离函数的调参;聚类维度选择和结果解读。

难点:聚类维度选择和结果解读。

 

实验八 数据挖掘综合案例分析

教学背景

数据挖掘和机器学习领域中的分类与预测方法非常多,比如决策树算法、贝叶斯分类算法、K近邻算法、逻辑回归算法,还包包括了一些集成学习算法,如随机森林、Bagging, GBDT, xgBoost。本次实验以分类与预测方法为专题,以基准数据集为分析对象,通过实验对比不同分类与预测方法在基准案例集上的编程应用,进一步强化学生的分类与预测算法的应用。

教学目的

认知层面:通识数据挖掘和机器学习领域中的各类不同分类预测算法,理解和掌握sklearn中各类分类预测方法的调用,理解实际应用中的各种数据的分类与预测分析的目标,通识分类与预测分析对于智能决策的支持作用。

知识层面:熟练sklearn中的各类不同的分类与预测方法的调用,理解基准案例数据集在算法性能评估中的重要作用,熟练各类分类与预测算法的调参以及结果解读。

能力层面:启发学生思考如何结合设计目的,合理选择恰当的分类与预测算法来进行数据挖掘,实现决策支持的目的;具备将分类与预测方法熟练应用于实际行业数据的能力,具备不同算法性能评估的能力。

实验内容

本次实验要求完成如下功能:

使用决策树CART、贝叶斯分类、KNN、逻辑回归、随机森林RFbaggingGBDT算法,分别对iris数据、breast_cancer数据进行分析

1需要分别使用test_split方法和K-fold交叉检验的方法;

2详细分析这类算法的预测准确性,并选取cart算法基准算法进行比较,在同一个图中绘制不同算法性能指标曲线

3)对所得到的分析结果进行可解释性说明。

教学重难点

重点:sklearn决策树CART、贝叶斯分类、KNN、逻辑回归、随机森林RFbaggingGBDT算法调用;分类与预测算法的性能评估。

难点:分类与预测算法的性能评估。

 

实验课具体由 数据挖掘技术 课程同时执行。

建议教学进度

实验一 数据可视化分析实验       学时数2

实验二 数据的归一化处理实验     学时数2

实验三 朴素贝叶斯算法实现实验   学时数2

实验四 决策树算法实验           学时数2

实验五  关联规则挖掘实验        学时数2

实验六  聚类算法实验            学时数2

实验七  多元回归分析实验        学时数2

实验八  离群点分析实验          学时数2

教学方法

1. 以上机实际操作的方式实现

2. 强化数据分析观点的建立和工程分析实践能力的培养。

考核方式

     数据挖掘技术 课程一起考核,实验成绩占平时成绩的45%

成绩评定方法

笔试成绩60%,平时成绩40%(含课程作业,包含实验成绩).

实验成绩占平时成绩的45%,实验成绩的考核主要由三部分组成:考勤情况20%+实验报告撰写情况40%+程序现场运行情况40%

主要参考书籍

1. Jiawei Han、Micheline Kamber等著,范明、孟小峰译,数据挖掘:概念与技术(第3版),机械工业出版社,2012.

2、朱玉全、杨鹤标,数据挖掘技术,东南大学出版社,2006.

3.张云涛、龚玲,数据挖掘原理与技术,电子工业出版社,2004.

4、陈京民,数据仓库与数据挖掘技术,电子工业出版社,2002.

 


课程教案(含课程思政建设方案)

      

 

 


XY课程简介
数据挖掘技术是实现数据“软黄金”最重要的核心技术之一,当前的大数据与人工智能行业的发展都离不开数据挖掘技术。对于计算机科学、大数据、人工智能、以及工科其他行业相关专业的大学生而言,掌握数据分析与挖掘的相关知识和技能是十分必要的,为专业的行业实践、就业和未来深造都具有十分重要的意义。本课程面向计算机与人工智能、系统工程以及其他工科行业应用相关专业的高年级本科生或低年级研究生,课程从数据挖掘技术的基础出发,紧扣python的机器学习库,使得学生既能够掌握数据挖掘的基本原理、方法和关键技术,又能使学生知道如何利用库函数进行数据分析与挖掘。此外,本课程还配备了一些经典的数据挖掘案例,提升学生综合应用数据来解决实际问题的能力。教学内容组织与实施上,使用知识点的片段式教学,每个知识点作为一个教学片段,每个片段时常约10-20分钟,通过案例场景化,提高教学视觉效果和学习体验。
XY课程收获
      完成课程的学习后,可以系统地对数据价值实现的产业链进行架构和了解,建立数据挖掘的通识方法论,理解和掌握数据挖掘的相关内涵、数据预处理方法、数据可视化方法、分类与预测方法、回归分析、关联挖掘以及聚类挖掘的相关知识,具备初步数据挖掘技术和方法的工程实践应用能力。
XY学习人群
     本课程可以提供给对数据分析和处理方向感兴趣的本科生和研究生学习使用,也可以提供给有数据应用需求的工程技术人员使用。

课程评价

教学资源
课程章节 | 文件类型   | 修改时间 | 大小 | 备注
1.1 课程介绍
文档
.pptx
2024-10-18 5.51MB
 
视频
.mp4
2024-10-18 178.57MB
 
图片
.png
2024-10-18 --
 
图片
.png
2024-10-18 --
2.1 1.1 数据挖掘的概念和任务
文档
.pptx
2024-10-18 3.15MB
 
视频
.mp4
2024-10-18 69.44MB
2.2 1.2 十大经典挖掘算法
文档
.pptx
2024-10-18 2.85MB
 
视频
.mp4
2024-10-18 242.00MB
 
图片
.png
2024-10-18 --
2.3 1.3-1.4 开放数据获取来源-数据挖掘常见误区
文档
.pptx
2024-10-18 2.17MB
 
视频
.mp4
2024-10-18 218.79MB
2.4 1.5 数据挖掘中的隐私保护
文档
.pptx
2024-10-18 855.88KB
 
视频
.mp4
2024-10-18 107.86MB
 
视频
.mp4
2024-10-18 17.33MB
 
视频
.mp4
2024-10-18 38.91MB
 
视频
.mp4
2024-10-18 33.71MB
2.5 选读--中华人民共和国数据安全法
文档
.pptx
2024-10-18 139.12MB
3.1 2.1 数据对象和数据属性
视频
.mp4
2024-10-18 258.37MB
 
文档
.ppt
2024-10-18 852.50KB
3.2 2.2 数据的统计描述
文档
.pptx
2024-10-18 1.41MB
 
视频
.mp4
2024-10-18 152.21MB
3.3 2.3 数据可视化
视频
.mp4
2024-10-18 269.91MB
 
文档
.ppt
2024-10-18 4.32MB
 
文档
.ppt
2024-10-18 1.41MB
 
视频
.MP4
2024-10-18 113.45MB
 
图片
.jpg
2024-10-18 --
3.3.1 拓展:python函数编程步骤讲解1
视频
.wmv
2024-10-18 33.37MB
3.3.2 拓展:python函数编程步骤讲解1
视频
.wmv
2024-10-18 65.98MB
3.3.3 拓展:python可视化编程讲解
视频
.mp4
2024-10-18 227.57MB
3.4 2.4 煤矿大数据案例应用
视频
.MP4
2024-10-18 113.45MB
 
文档
.pdf
2024-10-18 478.61KB
 
文档
.pdf
2024-10-18 2.03MB
 
文档
.pdf
2024-10-18 558.71KB
 
文档
.pdf
2024-10-18 652.14KB
 
文档
.pdf
2024-10-18 607.75KB
 
文档
.pdf
2024-10-18 494.10KB
 
文档
.pdf
2024-10-18 697.77KB
3.5 2.5数据相似性度量
视频
.mp4
2024-10-18 176.34MB
 
文档
.ppt
2024-10-18 568.00KB
 
文档
.docx
2024-10-18 4.11MB
 
附件
.${file.extension}
2024-10-18 --
3.6 2.5 数据可视化案例综合应用
文档
.pptx
2024-10-18 5.13MB
 
视频
.mp4
2024-10-18 1.10GB
 
视频
.mp4
2024-10-18 1.08GB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
4.1 3.1 数据清洗
视频
.mp4
2024-10-18 242.50MB
 
文档
.ppt
2024-10-18 261.00KB
 
文档
.pdf
2024-10-18 504.36KB
4.1.1 拓展--scikitlearn安装与配置
视频
.mp4
2024-10-18 132.34MB
4.1.2 编程拓展--scikit-learn库使用讲解
视频
.mp4
2024-10-18 171.43MB
4.2 3.2-3.3数据集成与数据规约
视频
.mp4
2024-10-18 235.17MB
 
文档
.ppt
2024-10-18 832.50KB
4.2.1 拓展编程作业---数据规范化实践
表格
.xls
2024-10-18 22.00KB
4.3 3.4-数据规约
视频
.mp4
2024-10-18 363.77MB
 
文档
.ppt
2024-10-18 367.50KB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
4.4 3.5数据离散化与概念分层
视频
.mp4
2024-10-18 254.63MB
 
文档
.ppt
2024-10-18 1.32MB
5.1 4.1-4.2 分类与预测:基本概念
视频
.mp4
2024-10-18 301.77MB
 
文档
.pptx
2024-10-18 756.55KB
 
文档
.pdf
2024-10-18 971.81KB
5.2 4.3 决策树分类
视频
.mp4
2024-10-18 202.73MB
 
文档
.pptx
2024-10-18 1.61MB
5.2.1 编程拓展:决策树分类及可视化
视频
.mp4
2024-10-18 66.40MB
5.3 4.4 朴素贝叶斯分类
文档
.pptx
2024-10-18 1.57MB
 
视频
.mp4
2024-10-18 466.06MB
 
文档
.pdf
2024-10-18 862.79KB
5.3.1 编程拓展--朴素贝叶斯分类与预测
视频
.mp4
2024-10-18 26.69MB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
5.4 4.5 决策树方法的分析比较
文档
.pptx
2024-10-18 923.06KB
 
视频
.mp4
2024-10-18 324.34MB
 
文档
.docx
2024-10-18 787.89KB
 
文档
.docx
2024-10-18 902.47KB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
5.5 4.6 KNN分类算法
文档
.pptx
2024-10-18 1.18MB
 
视频
.mp4
2024-10-18 93.88MB
5.5.1 编程拓展1:KNN预测男女
视频
.mp4
2024-10-18 76.47MB
5.5.2 编程拓展2:KNN测试自带数据评分对比以及绘图
视频
.mp4
2024-10-18 216.42MB
5.5.3 编程拓展3:KNN用于分类
视频
.mp4
2024-10-18 245.07MB
5.5.4 编程拓展4:KNN基于历史数据预测未来
视频
.mp4
2024-10-18 198.32MB
5.6 4.7 分类与预测算法的性能评价方法
文档
.pptx
2024-10-18 660.82KB
 
视频
.mp4
2024-10-18 324.29MB
5.7 4.8 高级分类算法
视频
.mp4
2024-10-18 413.62MB
 
文档
.pptx
2024-10-18 829.79KB
 
文档
.docx
2024-10-18 355.68KB
 
文档
.doc
2024-10-18 751.50KB
 
文档
.pdf
2024-10-18 1.65MB
6.1 5.1基本概念
文档
.pptx
2024-10-18 806.83KB
 
视频
.mp4
2024-10-18 116.76MB
6.2 5.2 线性回归编程案例
文档
.pptx
2024-10-18 1.38MB
 
视频
.mp4
2024-10-18 140.87MB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
6.2.1 编程拓展:KNN用于数据回归预测
视频
.mp4
2024-10-18 75.11MB
6.3 5.3 逻辑回归
文档
.pptx
2024-10-18 2.26MB
 
视频
.mp4
2024-10-18 77.97MB
 
附件
.${file.extension}
2024-10-18 --
6.4 5.4 岭回归
视频
.mp4
2024-10-18 311.90MB
 
文档
.pptx
2024-10-18 773.96KB
 
文档
.pdf
2024-10-18 122.50KB
6.5 5.5 CART分类回归树
视频
.mp4
2024-10-18 287.48MB
 
文档
.pptx
2024-10-18 799.64KB
 
附件
.${file.extension}
2024-10-18 --
6.6 5.6.1从线性回归到神经网络
视频
.mp4
2024-10-18 369.46MB
 
文档
.pptx
2024-10-18 1.61MB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
6.7 5.6.2 神经网络训练+5.6.3 神经网络设计原则
视频
.mp4
2024-10-18 340.14MB
 
文档
.pptx
2024-10-18 961.18KB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
6.8 5.5.6.4 过拟合与正则化+5.6.5+5.6.6
视频
.mp4
2024-10-18 162.32MB
 
文档
.pptx
2024-10-18 907.83KB
 
附件
.${file.extension}
2024-10-18 --
7.1 6.1基本概念
文档
.pptx
2024-10-18 1.58MB
 
视频
.mp4
2024-10-18 210.95MB
 
文档
.pdf
2024-10-18 775.33KB
7.2 6.2 闭项集和极大频繁项
文档
.pptx
2024-10-18 577.53KB
 
视频
.mp4
2024-10-18 85.22MB
 
附件
.${file.extension}
2024-10-18 --
7.3 6.3-6.5 Apriori算法及其应用
视频
.mp4
2024-10-18 287.37MB
 
文档
.ppt
2024-10-18 669.50KB
 
文档
.pdf
2024-10-18 1.88MB
7.3.1 编程拓展:关联规则挖掘
表格
.xls
2024-10-18 25.00KB
 
文档
.pptx
2024-10-18 562.37KB
7.4 6.6关联挖掘的常见误区
文档
.pptx
2024-10-18 857.57KB
 
视频
.mp4
2024-10-18 91.73MB
7.5 6.7 FP树及软件实践
视频
.mp4
2024-10-18 155.40MB
 
文档
.ppt
2024-10-18 276.50KB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
文档
.pdf
2024-10-18 2.90MB
7.6 课堂实录: Apriori基础与算法
文档
.pptx
2024-10-18 2.46MB
 
视频
.mp4
2024-10-18 1.01GB
7.7 课堂实录 :Apriori算法分析与案例应用
视频
.mp4
2024-10-18 1.04GB
8.1 7.1 聚类概述
视频
.mp4
2024-10-18 84.20MB
 
文档
.ppt
2024-10-18 2.89MB
 
文档
.pptx
2024-10-18 293.98KB
8.2 7.2 聚类的划分方法
视频
.mp4
2024-10-18 217.97MB
 
文档
.pptx
2024-10-18 1.17MB
 
附件
.${file.extension}
2024-10-18 --
8.2.1 编程拓展1:Kmeans方法使用及可视化
视频
.mp4
2024-10-18 50.52MB
 
附件
.${file.extension}
2024-10-18 --
8.2.2 编程拓展2:Kmeans简单实战
视频
.mp4
2024-10-18 75.54MB
8.2.3 编程拓展3:Kmeans常见错误解析
视频
.mp4
2024-10-18 83.40MB
8.2.4 编程拓展4:Kmeans实现数据无监督分类
视频
.mp4
2024-10-18 35.46MB
8.3 7.3 聚类的层次方法
视频
.mp4
2024-10-18 294.29MB
 
文档
.ppt
2024-10-18 2.68MB
8.4 7  聚类--7.4聚类的密度方法
视频
.mp4
2024-10-18 209.04MB
 
文档
.pptx
2024-10-18 1.14MB
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
 
附件
.${file.extension}
2024-10-18 --
8.4.1 编程拓展:密度聚类
视频
.mp4
2024-10-18 32.33MB
8.5 孤立点分析
文档
.ppt
2024-10-18 211.50KB
9.2 垃圾邮件分类
文档
.pptx
2024-10-18 965.58KB
9.3 学习行为聚类分析
文档
.docx
2024-10-18 897.21KB
 
表格
.xlsx
2024-10-18 47.13KB
 
文档
.pdf
2024-10-18 782.65KB
10.3 实验3:朴素贝叶斯和决策树预测方法
视频
.mp4
2024-10-18 26.69MB
10.4 实验4 :分类预测方法的性能评价和评估优化方法
视频
.mp4
2024-10-18 66.40MB
10.6 实验6:weka软件综合案例应用
视频
.mp4
2024-10-18 57.70MB
10.7 实验7:K均值聚类挖掘实验
视频
.mp4
2024-10-18 50.52MB
10.8 实验8:数据挖掘综合案例分析
视频
.mp4
2024-10-18 32.33MB
课程章节
提示框
提示框
确定要报名此课程吗?
确定取消

京ICP备10040544号-2

京公网安备 11010802021885号