数据采集

彭超华

目录

  • 1 课程学习导引(两课设计)
    • 1.1 教学大纲
    • 1.2 教学日历
    • 1.3 教案
    • 1.4 课程反思
    • 1.5 课堂反思
      • 1.5.1 第1次课(第1周)
      • 1.5.2 第2次课(第2周)
      • 1.5.3 第3次课(第3周)
      • 1.5.4 第4次课(第4周)
      • 1.5.5 第5次课(第5周)
      • 1.5.6 第6次课(第6周)
      • 1.5.7 第7次课(第7周)
      • 1.5.8 第8次课(第9周)
      • 1.5.9 第9次课(第10周)
      • 1.5.10 第10次课(第11周
      • 1.5.11 第11次课(第13周)
      • 1.5.12 第12次课(第14周)
      • 1.5.13 第13次课(第15周)
      • 1.5.14 第14次课(第16周)
      • 1.5.15 第15次课(第17周)
      • 1.5.16 第16次课(第17周)
    • 1.6 课程参考资料及链接
    • 1.7 课程考核方式
    • 1.8 课前软件安装(重要)
  • 2 数据采集概述(2学时)
    • 2.1 本讲数据采集的相关网站
    • 2.2 本讲教案
    • 2.3 数据采集方法及工具
    • 2.4 八爪鱼采集器的初步体验
    • 2.5 【综合案例】利用模板采集,采集搜房网新房数据信息
    • 2.6 本讲课件
  • 3 八爪鱼采集器应用(6学时)
    • 3.1 八爪鱼采集器的基本应用:自定义采集(2学时)
      • 3.1.1 本讲数据采集的相关网站
      • 3.1.2 单页数据采集
      • 3.1.3 多页数据采集(循环翻页)
      • 3.1.4 【综合案例】爬取某静态网站电影信息
    • 3.2 八爪鱼采集器的高级应用(4学时)
      • 3.2.1 登录采集
      • 3.2.2 循环采集
      • 3.2.3 ajax加载及滚动采集
      • 3.2.4 xpath元素定位
      • 3.2.5 采集错误排查
      • 3.2.6 【综合案例】爬取某静态网站电影信息
      • 3.2.7 本讲数据采集的相关网站地址
    • 3.3 本讲课件
  • 4 python网络爬虫基础(4学时)低阶
    • 4.1 课前任务:安装Vscode
    • 4.2 python面向对象程序设计【自学】
      • 4.2.1 类与对象
      • 4.2.2 类的继承
      • 4.2.3 类的多态
    • 4.3 认识python爬虫
    • 4.4 Web网页基础:HTML(2学时)
    • 4.5 HTTP基本原理(2学时)
    • 4.6 本讲课件
  • 5 静态网页数据爬取(10学时)中高阶
    • 5.1 课前任务:安装pycharm
    • 5.2 爬虫的基本原理
    • 5.3 网页数据的获取:requests库的使用
      • 5.3.1 课件:利用requests库获取网页源码
    • 5.4 网页数据的解析
      • 5.4.1 Xpath语法及lxml库的使用
        • 5.4.1.1 课件:利用lxml库(xpath)解析文本
      • 5.4.2 CSS选择器及BeautifulSoup库、parsel库的使用
        • 5.4.2.1 视频学习:利用BS4库解析网页内容
        • 5.4.2.2 课件:利用bs库解析网页内容
        • 5.4.2.3 课件:利用parsel库(css)解析网页
      • 5.4.3 正则表达式及re库的使用
        • 5.4.3.1 课件:利用正则表达式(re库)解析网页内容
    • 5.5 数据的存储
    • 5.6 【综合案例】爬取某静态网站电影信息
  • 6 动态网页数据爬取(10学时)中高阶
    • 6.1 Ajax动态网页
    • 6.2 使用reqeuests库爬取动态网页
      • 6.2.1 【综合案例】爬取百度图片
      • 6.2.2 【综合案例】爬取某动态网站图书信息
      • 6.2.3 课件:基于requests及ajax分析爬取动态网页
    • 6.3 模拟登录
      • 6.3.1 使用表单登录方法模拟登录
      • 6.3.2 基于Cookie的登录
      • 6.3.3 【综合案例】爬取某网站登录后电影信息
      • 6.3.4 课件:模拟登录及常见反爬机制
    • 6.4 使用Selenium库爬取动态页面
      • 6.4.1 Selenium和WebDriver的安装和配置
      • 6.4.2 Selenium的基本使用
      • 6.4.3 Selenium案例应用
      • 6.4.4 课件:使用Selenium库爬虫动态页面
      • 6.4.5 【综合案例】Selenium爬取某网站电影信息
  • 7 课程总结及课程设计
    • 7.1 课程总结
    • 7.2 课程设计
课程参考资料及链接

参考书目:

1. 商务数据采集与处理(微课版),刘宝强主编,人民邮电出版社出版. 2019年11月.(参考理由:补充八爪鱼采集器的内容)

2. Python3网络爬虫开发实战(第2版),崔庆才,人民邮电出版社.2021年9月.(参考理由:参考案例内容)

3. Python爬虫大数据采集与挖掘,曾建平, 清华大学出版.2021年8月.(参考理由:参考案例内容)

4. Python网络爬虫基础教程,黑马程序员.人民邮电出版社.2022年6月.(参考理由:参考案例内容)

5. python爬虫开发从入门到实战(微课版),谢乾坤. 人民邮电出版社.2018.9.(推荐理由:该教材通俗易懂,循序渐进,是非常好的入门参考教材。)

推荐阅读资料:

1. Python网络爬虫与信息提取,中国大学mooc. 嵩天、黄天羽.(推荐理由:mooc视频深入浅出地介绍了python网络爬虫与信息提取的基本知识,可作为本课程的参考学习资料。)

2. Python网络爬虫程序技术,中国大学mooc.黄锐军等.

推荐学习网址:

1. python100天:https://github.com/jackfrued/Python-100-Days 

2. MDN https://developer.mozilla.org/zh-CN/docs/Learn(学习 Web基础知识)

3. w3cschool官网 https://www.w3cschool.cn/

4. 菜鸟教程 https://www.runoob.com/