数据预处理

宋燕妮

目录

  • 1 课程导学
    • 1.1 《数据预处理》课程质量报告
    • 1.2 《数据预处理》课程标准
    • 1.3 《数据预处理》网络课程导学
    • 1.4 《数据预处理》学生网络课程学习指引
  • 2 数据处理基本概念
    • 2.1 本章知识点介绍
    • 2.2 数据处理的基本概念
      • 2.2.1 数据的质量问题(第1周2学时)
      • 2.2.2 数据的清洗与集成(第1周2课时)
      • 2.2.3 数据规约与变换(第2周2学时)
    • 2.3 ETL常用工具介绍及安装(第2周2学时)
    • 2.4 阶段测验(第2周)
  • 3 数据处理
    • 3.1 本章知识点介绍
    • 3.2 数据抽取
      • 3.2.1 文本数据抽取(第3周)
      • 3.2.2 web文件数据抽取1(第3周)
      • 3.2.3 web文件数据抽取2(第4周)
      • 3.2.4 web文件数据抽取3(第4周)
      • 3.2.5 阶段测验(3-4)
      • 3.2.6 数据库数据抽取1(第5周)
      • 3.2.7 数据库数据抽取2(第5周)
      • 3.2.8 CDC增量抽取(第6周)
    • 3.3 数据清洗
      • 3.3.1 字符串清洗(第6周)
      • 3.3.2 阶段测验(5-6)
      • 3.3.3 字段清洗1(第7周)
      • 3.3.4 字段清洗2(第7周)
      • 3.3.5 参照表清洗1(第8周)
      • 3.3.6 参照表清洗2(第8周)
      • 3.3.7 阶段测验(7-8)
    • 3.4 数据转换
      • 3.4.1 数据校验(第9周)
      • 3.4.2 数据排重 (第9周)
      • 3.4.3 期中复习(第10周)
      • 3.4.4 期中考试(第10周)
      • 3.4.5 缺失值处理(第11周)
      • 3.4.6 多数据源合并(第11周)
  • 4 作业设计
    • 4.1 本章知识点介绍
    • 4.2 作业设计(第12周)
    • 4.3 变量(第12周)
    • 4.4 阶段测验(11-12)
  • 5 Python数据导入导出
    • 5.1 本章知识点介绍
    • 5.2 pandas库介绍(第13周)
    • 5.3 文本文件导入(第13周)
  • 6 Python数据处理
    • 6.1 本章知识点介绍
    • 6.2 数据清理1(第14周)
    • 6.3 数据清理2(第14周)
    • 6.4 阶段测验(13-14)
    • 6.5 数据集成(第15周)
    • 6.6 数据转换(第15周)
    • 6.7 综合1(第16周)
    • 6.8 综合2(第16周)
pandas库介绍(第13周)

课程内容:

  1. Pandas介绍

  2. NumPy介绍

  3. Series

  4. DataFrame

课程目标:

  1. 了解Pandas和Numpy库

  2. 掌握Series的概念和使用方法

  3. 掌握DataFrame的概念和使用方法

课程重点、难点:

  • 重点:DataFrame的使用方法

  • 难点:使用Pandas进行数据清洗


授课资源:

一、授课视频

1.Series

2.DataFrame


二、授课文档


三、讨论


四、作业

见作业

五、拓展阅读