暂无搜索结果
-
1 课程导学
-
1.1 《数据预处理》课程质量报告
-
1.2 《数据预处理》课程标准
-
1.3 《数据预处理》网络课程导学
-
1.4 《数据预处理》学生网络课程学习指引
-
2 数据处理基本概念
-
2.1 本章知识点介绍
-
2.2 数据处理的基本概念
-
2.2.1 数据的质量问题(第1周2学时)
-
2.2.2 数据的清洗与集成(第1周2课时)
-
2.2.3 数据规约与变换(第2周2学时)
-
2.3 ETL常用工具介绍及安装(第2周2学时)
-
2.4 阶段测验(第2周)
-
3 数据处理
-
3.1 本章知识点介绍
-
3.2 数据抽取
-
3.2.1 文本数据抽取(第3周)
-
3.2.2 web文件数据抽取1(第3周)
-
3.2.3 web文件数据抽取2(第4周)
-
3.2.4 web文件数据抽取3(第4周)
-
3.2.5 阶段测验(3-4)
-
3.2.6 数据库数据抽取1(第5周)
-
3.2.7 数据库数据抽取2(第5周)
-
3.2.8 CDC增量抽取(第6周)
-
3.3 数据清洗
-
3.3.1 字符串清洗(第6周)
-
3.3.2 阶段测验(5-6)
-
3.3.3 字段清洗1(第7周)
-
3.3.4 字段清洗2(第7周)
-
3.3.5 参照表清洗1(第8周)
-
3.3.6 参照表清洗2(第8周)
-
3.3.7 阶段测验(7-8)
-
3.4 数据转换
-
3.4.1 数据校验(第9周)
-
3.4.2 数据排重 (第9周)
-
3.4.3 期中复习(第10周)
-
3.4.4 期中考试(第10周)
-
3.4.5 缺失值处理(第11周)
-
3.4.6 多数据源合并(第11周)
-
4 作业设计
-
4.1 本章知识点介绍
-
4.2 作业设计(第12周)
-
4.3 变量(第12周)
-
4.4 阶段测验(11-12)
-
5 Python数据导入导出
-
5.1 本章知识点介绍
-
5.2 pandas库介绍(第13周)
-
5.3 文本文件导入(第13周)
-
6 Python数据处理
-
6.1 本章知识点介绍
-
6.2 数据清理1(第14周)
-
6.3 数据清理2(第14周)
-
6.4 阶段测验(13-14)
-
6.5 数据集成(第15周)
-
6.6 数据转换(第15周)
-
6.7 综合1(第16周)
-
6.8 综合2(第16周)
特别说明:
kettle是ETL工具中的一种,在大数据数据处理中可以不通过编程技术,就可以对数据库数据和其它各种文件数据进行大批量数据的清洗。kettle也是一个免费开源软件,可以直接解压安装。但要求系统中已经安装了jdk软件。大家在安装的时候可以对照视频或ppt进行安装。如果已经安装了Mysql5数据库,可以将jar文件存入lib文件夹内,参看kettle安装配置.docx文件
课程内容:
ETL的基本概念
kettle的安装
课程目标:
掌握ETL的概念
掌握kettle的安装
课程重点、难点:
重点:kettle的安装
难点:ETL概念
授课资源:
一、安装文件下载
数据库安装文件见目录 : 1.8数据采集器介绍及安装
二、授课视频
1.ETL基本概念
2.kettle的安装
三、授课文档
四、讨论
五、作业
见课后作业
六、拓展练习
安装运行环境
七、拓展阅读
选择班级