目录

  • 1 课程脉络
    • 1.1 课程章节思维导图
    • 1.2 课程概述
    • 1.3 课程目标
    • 1.4 课程特色
    • 1.5 教学组织过程
    • 1.6 多元化评价标准
    • 1.7 课程开发团队
    • 1.8 教材与参考资料
    • 1.9 课程标准(教学大纲)
  • 2 项目一  智能数据分析认知
    • 2.1 任务1-1 智能数据分析初体验
      • 2.1.1 知识准备
      • 2.1.2 小组讨论
      • 2.1.3 实践出新知
      • 2.1.4 拓展延伸
    • 2.2 知识巩固站(随堂小练)
  • 3 项目二  网络数据采集技术
    • 3.1 任务2-1 使用Beautiful Soup库与XPath语法解析网页
      • 3.1.1 知识准备
      • 3.1.2 实践出新知
      • 3.1.3 小组讨论
    • 3.2 任务2-2 Requests库的应用
      • 3.2.1 知识准备
      • 3.2.2 实践出新知
    • 3.3 拓展延伸
    • 3.4 知识巩固站(随堂小练)
    • 3.5 课后作业
  • 4 项目三  数据预处理技术
    • 4.1 任务3-1 数据的清洗
      • 4.1.1 知识准备
      • 4.1.2 实践出新知
    • 4.2 任务3-2 数据的转换与集成
      • 4.2.1 知识准备
      • 4.2.2 实践出新知
    • 4.3 拓展延伸
    • 4.4 知识巩固站(随堂小练)
    • 4.5 小组讨论
  • 5 项目四  数据统计及分析
    • 5.1 任务4-1 NumPy数值数据分析
      • 5.1.1 知识准备
      • 5.1.2 实践出新知
      • 5.1.3 知识巩固站(随堂小练)
      • 5.1.4 课后作业
    • 5.2 任务4-2 基于Pandas的招聘数据分析与业务洞察
      • 5.2.1 知识准备
      • 5.2.2 实践出新知
      • 5.2.3 知识巩固站(随堂小练)
      • 5.2.4 课后作业
    • 5.3 拓展延伸
  • 6 项目五  数据可视化展示
    • 6.1 任务5-1 Matplotlib基本应用
      • 6.1.1 知识准备
      • 6.1.2 实践出新知
    • 6.2 任务5-2 Matplotlib可视化展示
      • 6.2.1 知识准备
    • 6.3 小组讨论
    • 6.4 拓展延伸
    • 6.5 知识巩固站(随堂小练)
    • 6.6 课后作业
  • 7 项目六  数据处理综合实例
    • 7.1 任务6-1 招聘信息可视化分析
    • 7.2 小组讨论
    • 7.3 任务6-2 “天津之眼”摩天轮景点数据分析
    • 7.4 课后作业
  • 8 项目七  机器学习
    • 8.1 任务7-1 神经网络知识基础
      • 8.1.1 知识准备
      • 8.1.2 实践出新知
    • 8.2 任务7-2 搭建神经网络
      • 8.2.1 知识准备
      • 8.2.2 实践出新知
    • 8.3 拓展延伸
    • 8.4 知识巩固站(随堂小练)
  • 9 课程结课考核
    • 9.1 结课考核
  • 10 软件下载合集
    • 10.1 软件下载
任务3-1 数据的清洗

学习指南


【任务描述】

       某数据分析团队在采集多源招聘网站岗位数据后,发现原始数据存在冗余属性、缺失值、格式混乱等问题,直接影响后续人才需求分析的准确性。现要求团队使用OpenRefine等工具对原始数据进行清洗、集成与转换,生成符合分析标准的高质量数据集,并输出《数据质量评估报告》,为《数字化人才需求洞察报告》提供可靠数据支撑。


【核心任务与技能

1. 核心问题

如何识别并清理冗余数据?

如何高效填充或修正缺失值?

如何检测并处理异常数据?

2. 任务目标

理论认知能力

能解释数据预处理的四大核心流程(清理、集成、变换、规约)及其作用。

能说明常见数据问题(冗余、缺失、噪声、异常)对分析结果的影响。

工具操作能力

能独立安装并配置OpenRefine工具,完成数据导入、列操作及历史操作回溯。

问题解决能力

能根据数据特征选择预处理策略。

能验证预处理后数据的完整性和一致性。


【职业能力要求】

知识要求:掌握数据清洗的核心概念与常见问题(缺失值、异常值、重复数据等),理解数据标准化与规范化的方法;熟悉OpenRefine工具的基本功能与操作流程,了解其在数据预处理中的优势与适用场景。

技能要求:能熟练使用OpenRefine进行数据清洗(文本聚类、分列转换、数据去重等),利用GREL表达式实现复杂数据转换;具备数据质量验证能力,确保清洗后的数据准确且符合分析需求。

态度要求:保持对数据一致性与完整性的严谨态度,注重清洗过程中的细节把控;主动探索高效清洗方法,协作沟通数据问题与解决方案。


【学习活动】

       根据“知识点PPT”和“知识点视频讲解”,完成:(1)任务实践操作