课程门户-章节详情

计算思维导论

吕橙

1 从这里开始你的学习
- 1.1 欢迎词
- 1.2 单元学习目标
- 1.3 课程学习说明
  - 1.3.1 课程概述与内容
  - 1.3.2 学习目标
  - 1.3.3 学习安排
  - 1.3.4 学习活动
  - 1.3.5 考核标准
  - 1.3.6 学习准则
- 1.4 先修知识与必备技能
  - 1.4.1 学习平台使用及技术支持
  - 1.4.2 必备基础要求
  - 1.4.3 学习资源使用指南
  - 1.4.4 教材电子版下载
  - 1.4.5 相关软件下载与安装方法
  - 1.4.6 答疑安排与教师课表
  - 1.4.7 作业和考试反馈
- 1.5 FAQ：常见问题解答
- 1.6 教师自我介绍和学生自我介绍
- 1.7 计算思维能力调查
- 1.8 学习风格调查
- 1.9 交流协作分组情况
- 1.10 第0讲单元测试
2 计算思维概述——第1周
- 2.1 单元学习目标
- 2.2 本章课件下载
- 2.3 课程思政
  - 2.3.1 线上思政（自主学习）
  - 2.3.2 线下课程思政
- 2.4 计算无所不在
- 2.5 计算思维概述
- 2.6 计算工具与计算机
- 2.7 第1讲单元测试
- 2.8 上机实验1-1：计算思维概述——系统自动评阅
- 2.9 延伸学习
3 计算基础——第2~3周
- 3.1 单元学习目标
- 3.2 本章课件下载
- 3.3 课程思政
  - 3.3.1 线上课程思政（自主学习）
  - 3.3.2 线下课程思政
- 3.4 初识二进制
- 3.5 二进制的运算（自主学习）
- 3.6 数制转换
- 3.7 数的表示
- 3.8 字符编码
- 3.9 声音图像编码（自主学习）
- 3.10 第2讲单元测试
- 3.11 上机实验2-1：进制转换——系统自动评阅
- 3.12 延伸学习
4 计算平台——第4周
- 4.1 单元学习目标
- 4.2 本章课件下载
- 4.3 课程思政
  - 4.3.1 线上课程思政（自主学习）
  - 4.3.2 线下课程思政
- 4.4 计算机系统
- 4.5 硬件之主板（自主学习）
- 4.6 硬件之接口与总线（自主学习）
- 4.7 硬件之CPU（自主学习）
- 4.8 硬件之内存（自主学习）
- 4.9 硬件之外存（自主学习）
- 4.10 硬件之输入输出设备（自主学习）
- 4.11 计算机基本工作原理
- 4.12 操作系统之处理机功能
- 4.13 操作系统之其他功能
- 4.14 第3讲单元测试
- 4.15 上机实验3-1：计算机硬件系统——系统自动评阅
- 4.16 延伸学习
5 问题求解——第5~7周
- 5.1 单元学习目标
- 5.2 本章课件下载
- 5.3 课程导图与设计
- 5.4 典型课例（课堂实录）
- 5.5 线上思政（自主学习）
- 5.6 线下思政
- 5.7 纸版教材在线阅读
- 5.8 什么是问题求解？
- 5.9 算法与算法描述
- 5.10 顺序结构
- 5.11 选择结构
- 5.12 循环结构
- 5.13 算法策略基础之数组
- 5.14 算法策略基础之函数
- 5.15 算法策略之枚举法
- 5.16 算法策略之递归法
- 5.17 算法策略之递推法
- 5.18 算法策略之迭代法
- 5.19 算法策略之分治法（自主学习）
- 5.20 算法策略之动态规划（自主学习）
- 5.21 算法策略之贪心算法（自主学习）
- 5.22 算法策略之回溯法（自主学习）
- 5.23 算法策略之查找
- 5.24 算法策略之排序
- 5.25 实验4-1：Raptor 软件基本操作（教师手工评阅）
- 5.26 实验4-2：算法设计与分析（生生互评）
- 5.27 实验4-3：问题求解（自主学习）
- 5.28 实验7-1：解题报告
- 5.29 实验7-2：解题报告
- 5.30 实验7-3：解题报告（自主学习）
- 5.31 第7讲单元测试
- 5.32 延伸学习
6 网络技术与信息共享——第8周
- 6.1 单元学习目标
- 6.2 本章课件下载
- 6.3 课程思政
  - 6.3.1 线上思政（自主学习）
  - 6.3.2 线下思政
- 6.4 初识网络
- 6.5 网络分类（自主学习）
- 6.6 网络体系结构
- 6.7 网络设备（自主学习）
- 6.8 局域网的搭建（自主学习）
- 6.9 IP与域名系统
- 6.10 划分子网
- 6.11 Internet 服务（自主学习）
- 6.12 数字公民与网络安全（自主学习）
- 6.13 组网实例（自主学习）
- 6.14 第4讲单元测试
- 6.15 上机实验4（PBL）：网络互联训练——生生互评
  - 6.15.1 思科网络实验室1：网络布线
  - 6.15.2 思科网络实验室2：将计算机添加到现有网络
  - 6.15.3 思科网络实验室3：连接无线路由器
  - 6.15.4 思科网络实验室4：测试无线连接
- 6.16 延伸学习
7 数据库技术与数据管理——第9-10周
- 7.1 单元学习目标
- 7.2 本章课件下载
- 7.3 课程思政
  - 7.3.1 线上思政（自主学习）
  - 7.3.2 线下思政
- 7.4 数据库基本概念（自主学习）
- 7.5 数据库的设计方法
- 7.6 数据库的规范化设计1
- 7.7 数据库的规范化设计2
- 7.8 Access数据库的创建与查询（自主学习）
- 7.9 关系代数理论
- 7.10 SQL语句编程（自主学习）
- 7.11 实验5-1：数据库设计——互评作业
- 7.12 实验5-2：窗体与报表——互评作业
- 7.13 第5讲单元测试
- 7.14 延伸学习
8 逻辑思维——第10-11周
- 8.1 单元学习目标
- 8.2 本章课件下载
- 8.3 课程导图与设计
- 8.4 典型课例（课堂实录）
- 8.5 线上思政（自主学习）
- 8.6 线下思政
- 8.7 实验6-1：逻辑推理（PBL个人项目——教师手工评阅）
- 8.8 前6章思维导图训练（PBL小组项目——互评）
- 8.9 纸版教材在线阅读
- 8.10 逻辑思维及其训练方法（自主学习）
- 8.11 命题与命题判断
- 8.12 命题符号化
- 8.13 布尔代数与真值表
- 8.14 命题演算与逻辑推理
- 8.15 习题课
- 8.16 实验6-1：解题报告
- 8.17 第6讲单元测试
- 8.18 延伸学习
9 数据分析与数据挖掘——第11~12周
- 9.1 单元学习目标
- 9.2 本章课件下载
- 9.3 课程导图与设计
- 9.4 课程思政
- 9.5 线上思政（自主学习）
- 9.6 线下思政
- 9.7 上机实验8-1：数据分析（PBL个人项目——系统自动评阅）
- 9.8 上机实验8-2：数据挖掘（自主学习）
- 9.9 纸版教材在线阅读
- 9.10 数据挖掘概述（自主学习）
- 9.11 数据采集（自主学习）
- 9.12 数据探索之数据质量分析
- 9.13 数据探索之数据特征分析
- 9.14 数据特征分析之分布分析
- 9.15 数据特征分析之集中统计分析
- 9.16 数据特征分析之离散统计分析
- 9.17 数据预处理
- 9.18 分类
- 9.19 预测
- 9.20 聚类分析（自主学习）
- 9.21 关联规则（自主学习）
- 9.22 第8讲单元测试
- 9.23 延伸学习
10 课程思政案例篇
- 10.1 课程思政案例
11 特色思维训练库
- 11.1 数学思维（50篇）
- 11.2 逻辑思维（50篇）
- 11.3 AI智能思维（50篇）
- 11.4 专业思维（50篇）
12 游戏编程案例篇
- 12.1 编程游戏关卡（30篇）
- 12.2 编程游戏制作（10关）
13 大工程思训项目库
- 13.1 综合性案例——北京冬奥会智能餐厅设计
- 13.2 综合性案例——北京冬奥会运动员密码设置
- 13.3 综合性案例——北京冬奥电脑装配
- 13.4 综合性案例——北京冬奥网络安全培训
- 13.5 综合性案例——北京冬奥会商品销售数据库系统设计
- 13.6 综合性案例——北京冬奥金牌榜预测
- 13.7 综合性案例——北京冬奥会奖牌榜自动更新算法设计
- 13.8 综合性案例——北京冬奥会线上销售大数据分析
14 考试专栏
- 14.1 教材及教材修订
- 14.2 考试纪律
- 14.3 考试注意事项
- 14.4 逻辑符号的录入方法
- 14.5 期末考试模拟样卷

数据预处理

1 教学目标
2 视频教学
3 电子课件
4 课程思政
5 图文教学
6 巩固练习
7 主题讨论

教学目标_png

能举例说明数据预处理方法
能手工计算使用等频分组法、等距分组法、聚类分组法对数据进行离散分箱
能使用EXCEL进行数据清洗、数据集成、数据变换、数据规约

视频教学_png

电子课件_png

1、数据预处理对数据挖掘过程是至关重要的，工欲善其事必先利其器！

2、预处理——数据清理异常和非法值，联想八项规定，规范我们的行为，做诚实守信的大学生。

图文教学_png

数据预处理是数据挖掘过程中的一个重要步骤，尤其是在对包含有噪声、不完整，甚至是不一致数据进行数据挖掘时，更需要进行数据的预处理，以提高数据挖掘对象的质量，并最终达到提高数据挖掘所获模式知识质量的目的。数据预处理主要包括:数据清洗、数据集成、数据变换和数据归约。

（1）数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值、异常值等。

缺失值的处理方法有三种，直接删除记录、数据插补和不处理。其中常用的数据插补方法有：均值或众数插补、固定值插补、最近邻插补、回归方法插补、拉格朗日插值法或牛顿插值法。

（2）数据集成

数据集成就是将来自多个数据源（如：数据库、文件等）数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字，在进行数据集成时就常常会引起数据的不一致或冗余。例如：在一个数据库中一个顾客的身份编码为“custom_id”，而在另一个数据库则为“cust_id”。命名的不一致常常也会导致同一属性值的内容不同，如：在一个数据库中一个人的姓取“Bill”，而在另一个数据库中则取“B”。同样大量的数据冗余不仅会降低挖掘速度，而且也会误导挖掘进程。因此除了进行数据清洗之外，在数据集成中还需要注意消除数据的冗余。此外在完成数据集成之后，有时还需要进行数据清洗以便消除可能存在的数据冗余。

（3）数据变换

数据变换主要是对数据进行规范化处理，将数据转换为“适当的”形式，以适用于挖掘任务及算法的需求。

◇简单的函数变换：比如，某班级某次考试的成绩不理想，教师通常采用开方乘十处理。

◇规范化：基于距离的挖掘算法，如最近邻分类，需要对数据进行标准化处理，也就是将其缩至特定的范围之内，如：[0,10]。如：对于一个顾客信息数据库中的年龄属性或工资属性，由于工资属性的取值比年龄属性的取值要大许多，如果不进行规格化处理，基于工资属性的距离计算值显然将远超过基于年龄属性的距离计算值，这就意味着工资属性的作用在整个数据对象的距离计算中被错误地放大了。规范化的方法有：

最小最大规范法：

零-均值规范法：

小数定标规范法：

◇连续属性的离散化：一些算法，如决策树ID3算法、关联规则Aprior算法等，均要求数据是标称型数据，这就需要将数值型数据离散化为标称型数据。离散化的方法有等宽分箱法、等频分箱法、聚类分箱法。

å¾åç«ä½åæ¢ç¹æPPTæ¨¡æ¿4

例题:1：离散化数据

有如下12个数据5,10,13,15,11,55,50,35,92,72,204,215，请你用等宽分箱法、等频分箱法、聚类分箱法将上述数据分成三箱。

解析：排序后5,10,11,13,15,35,50,55,72,92,204,215

① 等宽分箱法

总宽度=215-5=210，分成三箱。宽度为70，故分点为5~75、76~146、147~217。

故，bin1={5,10,11,13,15,35,50,55,72}、bin2={92}、bin3={204、215}。

②等频分箱法

样本数据n=12，等频分为三箱，显然每一箱4个数。故bin1={5,10,11,13}、bin2={15,35,50,55}、bin3={72,92,204,215}。

③聚类分箱法

现实中区分事物常常采用距离的方法，距离近，表示彼此之间是一类，距离远，表示彼此之间不是一类。现在样本数据容量为12，分成三箱，需要找到数和数之间第一大的距离，和第二大的距离。即92和204之间的距离为112；35和55之间的距离为20，故bin1={5,10,11,13,15}、bin2={35,50,55,72,92}、bin3={204、215}。

（4）数据归约

数据归约的目的就是缩小所挖掘数据的规模，但却不会影响（或基本不影响）最终的挖掘结果。数据归约的策略有属性归约和数值归约。属性归约，也叫维归约，即通过删除不相关的属性（或维）减少数据量。具体方法有合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析等。

巩固练习_png

主题讨论_png

图片预览