课程门户-章节详情

网络爬虫数据采集实践

王江盼

1 课程概要
- 1.1 教学大纲
- 1.2 授课计划
- 1.3 课件
2 爬虫简介
- 2.1 网络爬虫初识
- 2.2 网络爬虫引发的问题
- 2.3 robots协议
- 2.4 网络爬虫步骤
- 2.5 爬虫项目Daily-视频
- 2.6 课件
3 re库-正则表达式
- 3.1 原子
- 3.2 元字符
- 3.3 2022-09-08 8：30 直播
- 3.4 模式修正符
- 3.5 正则表达式实例
- 3.6 课件
4 Urllib库
- 4.1 urllib基础
- 4.2 超时设置
- 4.3 第二次课录播
- 4.4 2022-09-15 第二次课直播+代码
- 4.5 post请求
- 4.6 课件
5 request库
- 5.1 reques库介绍
- 5.2 2022年10月8日第5次课直播
- 5.3 2023年9月21日第2次课上课代码
- 5.4 2023年9月28日第3次课代码
- 5.5 课件
6 Urllib与正则表达式实战
- 6.1 豆瓣阅读出版社信息提取实战
- 6.2 糗事百科段子案例
7 Urllib第二部分
- 7.1 异常
- 7.2 用户代理池
- 7.3 2022年9月22日第三次课
- 7.4 第四课时
8 豆瓣电影爬取案例
- 8.1 第三次录播豆瓣爬虫
- 8.2 第五次课直播
- 8.3 202年9月29日第四次课直播
- 8.4 第6次课实验课参考答案
9 实训-当当网爬虫
- 9.1 2023-10-12 第5次课当当网爬虫代码
10 解析库-bs4库
- 10.1 bs库介绍
- 10.2 bs基本元素
- 10.3 文档遍历
- 10.4 bs4库-文档搜索
- 10.5 第四次课上课教学视频
- 10.6 2022年10月13日第6周视频
- 10.7 2023年10月7日第4次课
- 10.8 课件
11 Xpath解析
- 11.1 课件
12 数据存储
- 12.1 mysql文件读写
- 12.2 csv文件读写
- 12.3 excel表格存储
- 12.4 2022年10月20日第7周课
- 12.5 课件
13 selenium
- 13.1 selenium
14 反爬虫技术
- 14.1 图片验证码识别
- 14.2 滑动验证码识别
- 14.3 cookies登录
15 Scrapy框架使用
- 15.1 第一课时
- 15.2 Scrapy爬虫视频案例
16 猫眼电影爬取案例
- 16.1 正则表达式+requests
17 爬取新浪微博
- 17.1 ajax提取今日头条
18 代理爬取微信公众号文章
- 18.1 代理爬虫微信公众号文章视频
19 实验报告及课程考核
- 19.1 实验报告模板
- 19.2 考核标准及格式规范
20 课程程序附件
- 20.1 Lesson1-豆瓣阅读出版社信息
- 20.2 Lesson1-amazon案例
- 20.3 Lesson1-Urllib模块
- 20.4 Lesson2-正则表达式
- 20.5 Lesson3-Requests模块
- 20.6 Lesson4-XPath解析
- 20.7 Lesson5-BeautifulSoup模块
- 20.8 Lesson6-数据处理与存储

2023年10月7日第4次课

图片预览