课程门户-章节详情

数据采集

彭超华

1 课程学习导引（两课设计）
- 1.1 教学大纲
- 1.2 教学日历
- 1.3 教案
- 1.4 课程反思
- 1.5 课堂反思
  - 1.5.1 第1次课（第1周）
  - 1.5.2 第2次课（第2周）
  - 1.5.3 第3次课（第3周）
  - 1.5.4 第4次课（第4周）
  - 1.5.5 第5次课（第5周）
  - 1.5.6 第6次课（第6周）
  - 1.5.7 第7次课（第7周）
  - 1.5.8 第8次课（第9周）
  - 1.5.9 第9次课（第10周）
  - 1.5.10 第10次课（第11周
  - 1.5.11 第11次课（第13周）
  - 1.5.12 第12次课（第14周）
  - 1.5.13 第13次课（第15周）
  - 1.5.14 第14次课（第16周）
  - 1.5.15 第15次课（第17周）
  - 1.5.16 第16次课（第17周）
- 1.6 课程参考资料及链接
- 1.7 课程考核方式
- 1.8 课前软件安装（重要）
2 数据采集概述（2学时）
- 2.1 本讲数据采集的相关网站
- 2.2 本讲教案
- 2.3 数据采集方法及工具
- 2.4 八爪鱼采集器的初步体验
- 2.5 【综合案例】利用模板采集，采集搜房网新房数据信息
- 2.6 本讲课件
3 八爪鱼采集器应用（6学时）
- 3.1 八爪鱼采集器的基本应用：自定义采集(2学时)
  - 3.1.1 本讲数据采集的相关网站
  - 3.1.2 单页数据采集
  - 3.1.3 多页数据采集（循环翻页）
  - 3.1.4 【综合案例】爬取某静态网站电影信息
- 3.2 八爪鱼采集器的高级应用（4学时）
  - 3.2.1 登录采集
  - 3.2.2 循环采集
  - 3.2.3 ajax加载及滚动采集
  - 3.2.4 xpath元素定位
  - 3.2.5 采集错误排查
  - 3.2.6 【综合案例】爬取某静态网站电影信息
  - 3.2.7 本讲数据采集的相关网站地址
- 3.3 本讲课件
4 python网络爬虫基础（4学时）低阶
- 4.1 课前任务：安装Vscode
- 4.2 python面向对象程序设计【自学】
  - 4.2.1 类与对象
  - 4.2.2 类的继承
  - 4.2.3 类的多态
- 4.3 认识python爬虫
- 4.4 Web网页基础：HTML（2学时）
- 4.5 HTTP基本原理（2学时）
- 4.6 本讲课件
5 静态网页数据爬取（10学时）中高阶
- 5.1 课前任务：安装pycharm
- 5.2 爬虫的基本原理
- 5.3 网页数据的获取：requests库的使用
  - 5.3.1 课件：利用requests库获取网页源码
- 5.4 网页数据的解析
  - 5.4.1 Xpath语法及lxml库的使用
    - 5.4.1.1 课件：利用lxml库(xpath)解析文本
  - 5.4.2 CSS选择器及BeautifulSoup库、parsel库的使用
    - 5.4.2.1 视频学习：利用BS4库解析网页内容
    - 5.4.2.2 课件：利用bs库解析网页内容
    - 5.4.2.3 课件：利用parsel库(css)解析网页
  - 5.4.3 正则表达式及re库的使用
    - 5.4.3.1 课件：利用正则表达式(re库)解析网页内容
- 5.5 数据的存储
- 5.6 【综合案例】爬取某静态网站电影信息
6 动态网页数据爬取（10学时）中高阶
- 6.1 Ajax动态网页
- 6.2 使用reqeuests库爬取动态网页
  - 6.2.1 【综合案例】爬取百度图片
  - 6.2.2 【综合案例】爬取某动态网站图书信息
  - 6.2.3 课件：基于requests及ajax分析爬取动态网页
- 6.3 模拟登录
  - 6.3.1 使用表单登录方法模拟登录
  - 6.3.2 基于Cookie的登录
  - 6.3.3 【综合案例】爬取某网站登录后电影信息
  - 6.3.4 课件：模拟登录及常见反爬机制
- 6.4 使用Selenium库爬取动态页面
  - 6.4.1 Selenium和WebDriver的安装和配置
  - 6.4.2 Selenium的基本使用
  - 6.4.3 Selenium案例应用
  - 6.4.4 课件：使用Selenium库爬虫动态页面
  - 6.4.5 【综合案例】Selenium爬取某网站电影信息
7 课程总结及课程设计
- 7.1 课程总结
- 7.2 课程设计

本讲教案

第1讲数据采集概述教案

一、教学目标

知识目标：

理解数据采集的概念及其在数据分析、市场研究等领域的重要性。
掌握常见的数据采集方法及其优缺点。
熟悉八爪鱼采集器的基本功能和操作界面。

技能目标：

能够运用八爪鱼采集器进行简单的模板采集和自定义采集（自动识别）。
能够根据特定网站的结构，设计并运行基本的采集任务。

态度目标：

培养学生的实践能力和团队合作精神，鼓励学生通过实际操作加深理解。

二、教学内容

课程介绍

简要介绍课程大纲，包括数据采集方法、工具介绍、八爪鱼采集器的学习等内容。
展示教学日历，明确每次课的教学主题和进度安排。
阐述本讲的教学目标和重点。

数据采集方法及工具

讲解数据采集的基本概念，包括手动采集、自动化采集、API采集等。
介绍几种常见的数据采集工具，如八爪鱼采集器、Scrapy、Selenium等，并比较它们的优缺点。

八爪鱼采集器的初步体验

演示八爪鱼采集器的安装和登录过程。
详细讲解模板采集的操作流程，包括创建任务、配置采集规则、运行任务等步骤。
演示自定义采集（自动识别）功能，解释如何根据页面结构创建采集规则。

课堂案例

访问https://ssr1.scrape.center/，分析电影单页列表页面结构。
使用八爪鱼采集器的自动识别功能。
创建采集规则，提取电影标题、简介等信息。
运行并测试采集结果，确保数据准确性。
分析搜房网新房数据页面结构。
选择合适的模板或创建新模板。
配置采集规则，提取所需字段。
运行任务，查看并导出采集结果。
案例一：利用模板采集，采集搜房网新房数据信息。
步骤：
案例二：利用自动识别采集某网站电影单页列表信息。
步骤：

实训任务

学生分组，每组选择一个部门作为采集目标。
分析目标页面结构，确定采集策略。
使用八爪鱼采集器进行采集，并导出数据。
提交采集结果，并撰写简短的实训报告，描述采集过程和遇到的问题及解决方案。

任务描述：采集锦城学院某部门列表信息。
任务要求：

三、教学方法与手段

讲授法：通过PPT展示和口头讲解，介绍数据采集的基本概念、方法和工具。
演示法：现场演示八爪鱼采集器的操作过程，展示模板采集和自定义采集的实际应用。
案例分析法：通过课堂案例分析，让学生理解数据采集在实际操作中的应用和注意事项。
实操练习法：学生亲自动手操作八爪鱼采集器，完成实训任务，巩固所学知识。

四、教学评估与反馈

课堂互动：鼓励学生提问和讨论，及时解答学生的疑惑。
作业检查：批改学生的实训报告和采集结果，评估学生对数据采集的掌握程度。
反馈收集：收集学生的反馈意见，了解教学效果，为后续教学提供参考和改进方向。

图片预览