目录

  • 1 课程概要
    • 1.1 教学大纲
    • 1.2 授课计划
    • 1.3 课件
  • 2 爬虫简介
    • 2.1 网络爬虫初识
    • 2.2 网络爬虫引发的问题
    • 2.3 robots协议
    • 2.4 网络爬虫步骤
    • 2.5 爬虫项目Daily-视频
    • 2.6 课件
  • 3 re库-正则表达式
    • 3.1 原子
    • 3.2 元字符
    • 3.3 2022-09-08 8:30 直播
    • 3.4 模式修正符
    • 3.5 正则表达式实例
    • 3.6 课件
  • 4 Urllib库
    • 4.1 urllib基础
    • 4.2 超时设置
    • 4.3 第二次课录播
    • 4.4 2022-09-15 第二次课直播+代码
    • 4.5 post请求
    • 4.6 课件
  • 5 request库
    • 5.1 reques库介绍
    • 5.2 2022年10月8日 第5次课直播
    • 5.3 2023年9月21日第2次课 上课代码
    • 5.4 2023年9月28日 第3次课代码
    • 5.5 课件
  • 6 Urllib与正则表达式实战
    • 6.1 豆瓣阅读出版社信息提取实战
    • 6.2 糗事百科段子案例
  • 7 Urllib第二部分
    • 7.1 异常
    • 7.2 用户代理池
    • 7.3 2022年9月22日 第三次课
    • 7.4 第四课时
  • 8 豆瓣电影爬取案例
    • 8.1 第三次录播 豆瓣爬虫
    • 8.2 第五次课直播
    • 8.3 202年9月29日 第四次课直播
    • 8.4 第6次课 实验课参考答案
  • 9 实训-当当网爬虫
    • 9.1 2023-10-12 第5次课 当当网爬虫代码
  • 10 解析库-bs4库
    • 10.1 bs库介绍
    • 10.2 bs基本元素
    • 10.3 文档遍历
    • 10.4 bs4库-文档搜索
    • 10.5 第四次课 上课教学视频
    • 10.6 2022年10月13日第6周视频
    • 10.7 2023年10月7日 第4次课
    • 10.8 课件
  • 11 Xpath解析
    • 11.1 课件
  • 12 数据存储
    • 12.1 mysql文件读写
    • 12.2 csv文件读写
    • 12.3 excel表格存储
    • 12.4 2022年10月20日第7周课
    • 12.5 课件
  • 13 selenium
    • 13.1 selenium
  • 14 反爬虫技术
    • 14.1 图片验证码识别
    • 14.2 滑动验证码识别
    • 14.3 cookies登录
  • 15 Scrapy框架使用
    • 15.1 第一课时
    • 15.2 Scrapy爬虫视频案例
  • 16 猫眼电影爬取案例
    • 16.1 正则表达式+requests
  • 17 爬取新浪微博
    • 17.1 ajax提取今日头条
  • 18 代理爬取微信公众号文章
    • 18.1 代理爬虫微信公众号文章视频
  • 19 实验报告及课程考核
    • 19.1 实验报告模板
    • 19.2 考核标准及格式规范
  • 20 课程程序附件
    • 20.1 Lesson1-豆瓣阅读 出版社 信息
    • 20.2 Lesson1-amazon案例
    • 20.3 Lesson1-Urllib模块
    • 20.4 Lesson2-正则表达式
    • 20.5 Lesson3-Requests模块
    • 20.6 Lesson4-XPath解析
    • 20.7 Lesson5-BeautifulSoup模块
    • 20.8 Lesson6-数据处理与存储
Lesson1-Urllib模块

Lesson 1:请求模块Urllib 相关实例程序

1. 演示常用的方法与属性

2. 发送POST请求

3. 处理网络超时

4. 设置请求头

5. 模拟登录

6. 获取Cookie

7. 保存Cookie

8. 使用Cookie信息登录并获取登录后页面中的信息

9. 设置代理IP地址

10. 处理URLError异常

11. 使用HTTPError类捕获异常

12. 双重异类的捕获

13. 使用urlparse()方法拆分URL

14. 使用urlsplit()方法拆分URL

15. 使用urlunparse()方法组合URL

16. 使用urlunsplit()方法组合URL

17. 使用urljoin()方法连接URL

18. 使用urlencode()方法编码请求参数

19. 使用quote()方法编码字符串参数

20. 使用unquote()方法解码请求参数

21. 使用parse_qs()方法将参数转换为字典类型

22. 使用parse_qsl()方法将参数转换为元祖所组成的列表