目录

  • 1 课程概要
    • 1.1 教学大纲
    • 1.2 授课计划
    • 1.3 课件
  • 2 爬虫简介
    • 2.1 网络爬虫初识
    • 2.2 网络爬虫引发的问题
    • 2.3 robots协议
    • 2.4 网络爬虫步骤
    • 2.5 爬虫项目Daily-视频
    • 2.6 课件
  • 3 re库-正则表达式
    • 3.1 原子
    • 3.2 元字符
    • 3.3 2022-09-08 8:30 直播
    • 3.4 模式修正符
    • 3.5 正则表达式实例
    • 3.6 课件
  • 4 Urllib库
    • 4.1 urllib基础
    • 4.2 超时设置
    • 4.3 第二次课录播
    • 4.4 2022-09-15 第二次课直播+代码
    • 4.5 post请求
    • 4.6 课件
  • 5 request库
    • 5.1 reques库介绍
    • 5.2 2022年10月8日 第5次课直播
    • 5.3 2023年9月21日第2次课 上课代码
    • 5.4 2023年9月28日 第3次课代码
    • 5.5 课件
  • 6 Urllib与正则表达式实战
    • 6.1 豆瓣阅读出版社信息提取实战
    • 6.2 糗事百科段子案例
  • 7 Urllib第二部分
    • 7.1 异常
    • 7.2 用户代理池
    • 7.3 2022年9月22日 第三次课
    • 7.4 第四课时
  • 8 豆瓣电影爬取案例
    • 8.1 第三次录播 豆瓣爬虫
    • 8.2 第五次课直播
    • 8.3 202年9月29日 第四次课直播
    • 8.4 第6次课 实验课参考答案
  • 9 实训-当当网爬虫
    • 9.1 2023-10-12 第5次课 当当网爬虫代码
  • 10 解析库-bs4库
    • 10.1 bs库介绍
    • 10.2 bs基本元素
    • 10.3 文档遍历
    • 10.4 bs4库-文档搜索
    • 10.5 第四次课 上课教学视频
    • 10.6 2022年10月13日第6周视频
    • 10.7 2023年10月7日 第4次课
    • 10.8 课件
  • 11 Xpath解析
    • 11.1 课件
  • 12 数据存储
    • 12.1 mysql文件读写
    • 12.2 csv文件读写
    • 12.3 excel表格存储
    • 12.4 2022年10月20日第7周课
    • 12.5 课件
  • 13 selenium
    • 13.1 selenium
  • 14 反爬虫技术
    • 14.1 图片验证码识别
    • 14.2 滑动验证码识别
    • 14.3 cookies登录
  • 15 Scrapy框架使用
    • 15.1 第一课时
    • 15.2 Scrapy爬虫视频案例
  • 16 猫眼电影爬取案例
    • 16.1 正则表达式+requests
  • 17 爬取新浪微博
    • 17.1 ajax提取今日头条
  • 18 代理爬取微信公众号文章
    • 18.1 代理爬虫微信公众号文章视频
  • 19 实验报告及课程考核
    • 19.1 实验报告模板
    • 19.2 考核标准及格式规范
  • 20 课程程序附件
    • 20.1 Lesson1-豆瓣阅读 出版社 信息
    • 20.2 Lesson1-amazon案例
    • 20.3 Lesson1-Urllib模块
    • 20.4 Lesson2-正则表达式
    • 20.5 Lesson3-Requests模块
    • 20.6 Lesson4-XPath解析
    • 20.7 Lesson5-BeautifulSoup模块
    • 20.8 Lesson6-数据处理与存储
2023年10月7日 第4次课