目录

  • 1 课程脉络
    • 1.1 课程章节思维导图
    • 1.2 课程概述
    • 1.3 课程目标
    • 1.4 课程特色
    • 1.5 教学组织过程
    • 1.6 多元化评价标准
    • 1.7 课程开发团队
    • 1.8 教材与参考资料
    • 1.9 课程标准(教学大纲)
  • 2 项目一  智能数据分析认知
    • 2.1 任务1-1 智能数据分析初体验
      • 2.1.1 知识准备
      • 2.1.2 小组讨论
      • 2.1.3 实践出新知
      • 2.1.4 拓展延伸
    • 2.2 知识巩固站(随堂小练)
  • 3 项目二  网络数据采集技术
    • 3.1 任务2-1 使用Beautiful Soup库与XPath语法解析网页
      • 3.1.1 知识准备
      • 3.1.2 实践出新知
      • 3.1.3 小组讨论
    • 3.2 任务2-2 Requests库的应用
      • 3.2.1 知识准备
      • 3.2.2 实践出新知
    • 3.3 拓展延伸
    • 3.4 知识巩固站(随堂小练)
    • 3.5 课后作业
  • 4 项目三  数据预处理技术
    • 4.1 任务3-1 数据的清洗
      • 4.1.1 知识准备
      • 4.1.2 实践出新知
    • 4.2 任务3-2 数据的转换与集成
      • 4.2.1 知识准备
      • 4.2.2 实践出新知
    • 4.3 拓展延伸
    • 4.4 知识巩固站(随堂小练)
    • 4.5 小组讨论
  • 5 项目四  数据统计及分析
    • 5.1 任务4-1 NumPy数值数据分析
      • 5.1.1 知识准备
      • 5.1.2 实践出新知
      • 5.1.3 知识巩固站(随堂小练)
      • 5.1.4 课后作业
    • 5.2 任务4-2 基于Pandas的招聘数据分析与业务洞察
      • 5.2.1 知识准备
      • 5.2.2 实践出新知
      • 5.2.3 知识巩固站(随堂小练)
      • 5.2.4 课后作业
    • 5.3 拓展延伸
  • 6 项目五  数据可视化展示
    • 6.1 任务5-1 Matplotlib基本应用
      • 6.1.1 知识准备
      • 6.1.2 实践出新知
    • 6.2 任务5-2 Matplotlib可视化展示
      • 6.2.1 知识准备
    • 6.3 小组讨论
    • 6.4 拓展延伸
    • 6.5 知识巩固站(随堂小练)
    • 6.6 课后作业
  • 7 项目六  数据处理综合实例
    • 7.1 任务6-1 招聘信息可视化分析
    • 7.2 小组讨论
    • 7.3 任务6-2 “天津之眼”摩天轮景点数据分析
    • 7.4 课后作业
  • 8 项目七  机器学习
    • 8.1 任务7-1 神经网络知识基础
      • 8.1.1 知识准备
      • 8.1.2 实践出新知
    • 8.2 任务7-2 搭建神经网络
      • 8.2.1 知识准备
      • 8.2.2 实践出新知
    • 8.3 拓展延伸
    • 8.4 知识巩固站(随堂小练)
  • 9 课程结课考核
    • 9.1 结课考核
  • 10 软件下载合集
    • 10.1 软件下载
任务2-1 使用Beautiful Soup库与XPath语法解析网页

学习指南


【任务描述】

       某招聘平台为分析数字化人才市场趋势,需从多源招聘网站(如51job)采集人工智能工程师等岗位信息。由于网页结构复杂且数据格式不统一,传统手动提取效率低下。现要求数据团队使用Python工具解析目标网页,精准提取“岗位名称”“职位信息”“公司信息”等关键字段,为后续生成《人才需求分析报告》提供结构化数据支持。


【核心问题与任务】

1. 核心问题

如何解析不同招聘网站的多样化HTML结构?

如何高效提取非结构化网页中的关键信息(如岗位技能要求、企业地址信息)?

如何选择并验证合适的解析工具(Beautiful Soup与XPath)

2. 任务目标

理论认知能力

能解释HTML文档的树状结构特点及标签属性含义。

能说明XPath语法规则及其在XML/HTML节点定位中的作用。

工具操作能力

能独立安装并配置Python环境下的Beautiful Soup库、lxml解析器。

能使用.find().find_all()方法定位HTML标签,提取文本内容。

能通过浏览器开发者工具快速获取XPath表达式。

问题解决能力

能根据网页结构动态调整解析策略。

能对比验证Beautiful Soup与XPath的解析效率及准确性。


【职业能力要求】

知识要求:掌握网页结构的基本原理,理解静态网页与动态网页的数据抓取差异;熟悉Beautiful Soup库的核心功能及XPath语法规则,了解反爬机制与合规爬取策略。

技能要求:能熟练使用Beautiful Soup解析HTML文档,结合XPath精准提取复杂嵌套数据;具备异常处理与编码转换能力,确保数据解析的完整性和准确性。

态度要求:保持对数据来源合法性的敏感度,遵循爬虫伦理规范;主动优化解析效率,协作沟通数据需求与解析逻辑。


【学习活动】

       根据“知识点PPT”和“知识点视频讲解”,完成:(1)任务实践操作(2)小组讨论(3)线上随学小练