课程门户-章节详情

严莉

1 课程脉络
- 1.1 课程章节思维导图
- 1.2 课程概述
- 1.3 课程目标
- 1.4 课程特色
- 1.5 教学组织过程
- 1.6 多元化评价标准
- 1.7 课程开发团队
- 1.8 教材与参考资料
- 1.9 课程标准（教学大纲）
2 项目一智能数据分析认知
- 2.1 任务1-1 智能数据分析初体验
  - 2.1.1 知识准备
  - 2.1.2 小组讨论
  - 2.1.3 实践出新知
  - 2.1.4 拓展延伸
- 2.2 知识巩固站（随堂小练）
3 项目二网络数据采集技术
- 3.1 任务2-1 使用Beautiful Soup库与XPath语法解析网页
  - 3.1.1 知识准备
  - 3.1.2 实践出新知
  - 3.1.3 小组讨论
- 3.2 任务2-2 Requests库的应用
  - 3.2.1 知识准备
  - 3.2.2 实践出新知
- 3.3 拓展延伸
- 3.4 知识巩固站（随堂小练）
- 3.5 课后作业
4 项目三数据预处理技术
- 4.1 任务3-1 数据的清洗
  - 4.1.1 知识准备
  - 4.1.2 实践出新知
- 4.2 任务3-2 数据的转换与集成
  - 4.2.1 知识准备
  - 4.2.2 实践出新知
- 4.3 拓展延伸
- 4.4 知识巩固站（随堂小练）
- 4.5 小组讨论
5 项目四数据统计及分析
- 5.1 任务4-1 NumPy数值数据分析
  - 5.1.1 知识准备
  - 5.1.2 实践出新知
  - 5.1.3 知识巩固站（随堂小练）
  - 5.1.4 课后作业
- 5.2 任务4-2 基于Pandas的招聘数据分析与业务洞察
  - 5.2.1 知识准备
  - 5.2.2 实践出新知
  - 5.2.3 知识巩固站（随堂小练）
  - 5.2.4 课后作业
- 5.3 拓展延伸
6 项目五数据可视化展示
- 6.1 任务5-1 Matplotlib基本应用
  - 6.1.1 知识准备
  - 6.1.2 实践出新知
- 6.2 任务5-2 Matplotlib可视化展示
  - 6.2.1 知识准备
- 6.3 小组讨论
- 6.4 拓展延伸
- 6.5 知识巩固站（随堂小练）
- 6.6 课后作业
7 项目六数据处理综合实例
- 7.1 任务6-1 招聘信息可视化分析
- 7.2 小组讨论
- 7.3 任务6-2 “天津之眼”摩天轮景点数据分析
- 7.4 课后作业
8 项目七机器学习
- 8.1 任务7-1 神经网络知识基础
  - 8.1.1 知识准备
  - 8.1.2 实践出新知
- 8.2 任务7-2 搭建神经网络
  - 8.2.1 知识准备
  - 8.2.2 实践出新知
- 8.3 拓展延伸
- 8.4 知识巩固站（随堂小练）
9 课程结课考核
- 9.1 结课考核
10 软件下载合集
- 10.1 软件下载

任务2-1 使用Beautiful Soup库与XPath语法解析网页

学习指南

【任务描述】

某招聘平台为分析数字化人才市场趋势，需从多源招聘网站（如51job）采集人工智能工程师等岗位信息。由于网页结构复杂且数据格式不统一，传统手动提取效率低下。现要求数据团队使用Python工具解析目标网页，精准提取“岗位名称”“职位信息”“公司信息”等关键字段，为后续生成《人才需求分析报告》提供结构化数据支持。

【核心问题与任务】

1. 核心问题：

如何解析不同招聘网站的多样化HTML结构？

如何高效提取非结构化网页中的关键信息（如岗位技能要求、企业地址信息）？

如何选择并验证合适的解析工具（Beautiful Soup与XPath）？

2. 任务目标：

理论认知能力：

能解释HTML文档的树状结构特点及标签属性含义。

能说明XPath语法规则及其在XML/HTML节点定位中的作用。

工具操作能力：

能独立安装并配置Python环境下的Beautiful Soup库、lxml解析器。

能使用.find()与.find_all()方法定位HTML标签，提取文本内容。

能通过浏览器开发者工具快速获取XPath表达式。

问题解决能力：

能根据网页结构动态调整解析策略。

能对比验证Beautiful Soup与XPath的解析效率及准确性。

【职业能力要求】

知识要求：掌握网页结构的基本原理，理解静态网页与动态网页的数据抓取差异；熟悉Beautiful Soup库的核心功能及XPath语法规则，了解反爬机制与合规爬取策略。

技能要求：能熟练使用Beautiful Soup解析HTML文档，结合XPath精准提取复杂嵌套数据；具备异常处理与编码转换能力，确保数据解析的完整性和准确性。

态度要求：保持对数据来源合法性的敏感度，遵循爬虫伦理规范；主动优化解析效率，协作沟通数据需求与解析逻辑。

【学习活动】

根据“知识点PPT”和“知识点视频讲解”，完成：（１）任务实践操作（２）小组讨论（３）线上随学小练

图片预览