课程门户-章节详情

Python网络爬虫技术（2020年秋季学期）

江学为

1 【课程导学】
- 1.1 1.课程介绍
- 1.2 2.教学文件
- 1.3 3.考核方案
- 1.4 4.课程设计
- 1.5 5.教学团队
- 1.6 6.课堂实录
- 1.7 7.课程获奖
2 模块一初识网络爬虫
- 2.1 【你知道什么是大数据吗？】
- 2.2 【目标树立】
- 2.3 【学习内容】任务一：认识爬虫与robots协议
- 2.4 【学习内容】任务二：认识反爬虫
- 2.5 【学习内容】任务三：开发环境准备
- 2.6 【知识拓展】网站robots协议含义解析
- 2.7 【单元过关】
- 2.8 【答疑讨论】
3 模块二网页数据获取
- 3.1 【大数据时代性，个人隐私如何保护？】
- 3.2 【目标树立】
- 3.3 【学习内容】任务一：谷歌浏览器开发者模式介绍
- 3.4 【学习内容】任务二：requests库获取静态网页数据
- 3.5 【学习内容】任务三：requests库获取动态网页数据
- 3.6 【学习内容】任务四：urlLib获取网页数据
- 3.7 【知识拓展】“京东”“亚马逊”网站数据抓取
- 3.8 【单元过关】
- 3.9 【答疑讨论】
4 模块三网页数据解析
- 4.1 【数据爬取的合理边界在哪里？】
- 4.2 【目标树立】
- 4.3 【学习内容】任务一：正则表达式解析
- 4.4 【学习内容】任务二：XPath与lxml解析
- 4.5 【学习内容】任务三：Beautitul Soup解析
- 4.6 【知识拓展】“美食杰”网站数据解析
- 4.7 【单元过关】
- 4.8 【答疑讨论】
5 模块四网页数据存储
- 5.1 【爬取的数据保存后一定安全吗？】
- 5.2 【目标树立】
- 5.3 【学习内容】任务一：数据存储到文本文件中
- 5.4 【学习内容】任务二：数据存储到MySQL数据库中
- 5.5 【学习内容】任务三：数据存储到Mongo数据库中
- 5.6 【知识拓展】“豆瓣”电影数据获取与存储
- 5.7 【单元过关】
- 5.8 【答疑讨论】
6 模块五常规动态网页数据爬取
- 6.1 【目标树立】
- 6.2 【学习内容】任务一：Selenium库安装及浏览器补丁下载
- 6.3 【学习内容】任务二：Selenium快速入门
- 6.4 【学习内容】任务三：元素选取
- 6.5 【知识拓展】“斗鱼”网站数据获取
- 6.6 【单元过关】
- 6.7 【答疑讨论】
7 模块六：综合案例
- 7.1 项目需求：世界大学城空间留言板数据爬取
- 7.2 项目需求：链家长沙楼盘信息爬取
- 7.3 项目需求：猫眼电影网站电影信息爬取
- 7.4 项目需求：斗鱼网站信息爬取
- 7.5 项目展示与代码示例

【学习内容】任务二：requests库获取静态网页数据

1 知识点讲解
2 知识点ppt
3 课堂实训

requests库的介绍（一）

简介：

通过本视频的学习，掌握requests库的基本使用。具体的知识如下：

1、requests库的方法

2、requests库生成请求

3、Response对象属性

注：视频中的代码可在“课程资料--源码”文件夹中下载。

requests库的介绍（二）

简介：

通过本视频的学习，掌握requests库的基本使用。具体的知识如下：

1、请求头的设置

2、Timeout设置

3、生成完整的HTTP请求

注：视频中的代码可在“课程资料--源码”文件夹中下载。

requests库的安装

requests库的介绍（一）

requests库的介绍（二）

图片预览