课程门户-章节详情

网络爬虫数据采集实践

王江盼

1 课程概要
- 1.1 教学大纲
- 1.2 授课计划
- 1.3 课件
2 爬虫简介
- 2.1 网络爬虫初识
- 2.2 网络爬虫引发的问题
- 2.3 robots协议
- 2.4 网络爬虫步骤
- 2.5 爬虫项目Daily-视频
- 2.6 课件
3 re库-正则表达式
- 3.1 原子
- 3.2 元字符
- 3.3 2022-09-08 8：30 直播
- 3.4 模式修正符
- 3.5 正则表达式实例
- 3.6 课件
4 Urllib库
- 4.1 urllib基础
- 4.2 超时设置
- 4.3 第二次课录播
- 4.4 2022-09-15 第二次课直播+代码
- 4.5 post请求
- 4.6 课件
5 request库
- 5.1 reques库介绍
- 5.2 2022年10月8日第5次课直播
- 5.3 2023年9月21日第2次课上课代码
- 5.4 2023年9月28日第3次课代码
- 5.5 课件
6 Urllib与正则表达式实战
- 6.1 豆瓣阅读出版社信息提取实战
- 6.2 糗事百科段子案例
7 Urllib第二部分
- 7.1 异常
- 7.2 用户代理池
- 7.3 2022年9月22日第三次课
- 7.4 第四课时
8 豆瓣电影爬取案例
- 8.1 第三次录播豆瓣爬虫
- 8.2 第五次课直播
- 8.3 202年9月29日第四次课直播
- 8.4 第6次课实验课参考答案
9 实训-当当网爬虫
- 9.1 2023-10-12 第5次课当当网爬虫代码
10 解析库-bs4库
- 10.1 bs库介绍
- 10.2 bs基本元素
- 10.3 文档遍历
- 10.4 bs4库-文档搜索
- 10.5 第四次课上课教学视频
- 10.6 2022年10月13日第6周视频
- 10.7 2023年10月7日第4次课
- 10.8 课件
11 Xpath解析
- 11.1 课件
12 数据存储
- 12.1 mysql文件读写
- 12.2 csv文件读写
- 12.3 excel表格存储
- 12.4 2022年10月20日第7周课
- 12.5 课件
13 selenium
- 13.1 selenium
14 反爬虫技术
- 14.1 图片验证码识别
- 14.2 滑动验证码识别
- 14.3 cookies登录
15 Scrapy框架使用
- 15.1 第一课时
- 15.2 Scrapy爬虫视频案例
16 猫眼电影爬取案例
- 16.1 正则表达式+requests
17 爬取新浪微博
- 17.1 ajax提取今日头条
18 代理爬取微信公众号文章
- 18.1 代理爬虫微信公众号文章视频
19 实验报告及课程考核
- 19.1 实验报告模板
- 19.2 考核标准及格式规范
20 课程程序附件
- 20.1 Lesson1-豆瓣阅读出版社信息
- 20.2 Lesson1-amazon案例
- 20.3 Lesson1-Urllib模块
- 20.4 Lesson2-正则表达式
- 20.5 Lesson3-Requests模块
- 20.6 Lesson4-XPath解析
- 20.7 Lesson5-BeautifulSoup模块
- 20.8 Lesson6-数据处理与存储

Lesson1-Urllib模块

Lesson 1：请求模块Urllib 相关实例程序

1. 演示常用的方法与属性

2. 发送POST请求

3. 处理网络超时

4. 设置请求头

5. 模拟登录

6. 获取Cookie

7. 保存Cookie

8. 使用Cookie信息登录并获取登录后页面中的信息

9. 设置代理IP地址

10. 处理URLError异常

11. 使用HTTPError类捕获异常

12. 双重异类的捕获

13. 使用urlparse()方法拆分URL

14. 使用urlsplit()方法拆分URL

15. 使用urlunparse()方法组合URL

16. 使用urlunsplit()方法组合URL

17. 使用urljoin()方法连接URL

18. 使用urlencode()方法编码请求参数

19. 使用quote()方法编码字符串参数

20. 使用unquote()方法解码请求参数

21. 使用parse_qs()方法将参数转换为字典类型

22. 使用parse_qsl()方法将参数转换为元祖所组成的列表

Lesson 1：请求模块Urllib 相关实例程序

图片预览