Python网络爬虫技术(2020年秋季学期)
江学为
目录
暂无搜索结果
1 【课程导学】
1.1 1.课程介绍
1.2 2.教学文件
1.3 3.考核方案
1.4 4.课程设计
1.5 5.教学团队
1.6 6.课堂实录
1.7 7.课程获奖
2 模块一 初识网络爬虫
2.1 【你知道什么是大数据吗?】
2.2 【目标树立】
2.3 【学习内容】任务一:认识爬虫与robots协议
2.4 【学习内容】任务二:认识反爬虫
2.5 【学习内容】任务三:开发环境准备
2.6 【知识拓展】网站robots协议含义解析
2.7 【单元过关】
2.8 【答疑讨论】
3 模块二 网页数据获取
3.1 【大数据时代性,个人隐私如何保护?】
3.2 【目标树立】
3.3 【学习内容】任务一:谷歌浏览器开发者模式介绍
3.4 【学习内容】任务二:requests库获取静态网页数据
3.5 【学习内容】任务三:requests库获取动态网页数据
3.6 【学习内容】任务四:urlLib获取网页数据
3.7 【知识拓展】“京东”“亚马逊”网站数据抓取
3.8 【单元过关】
3.9 【答疑讨论】
4 模块三 网页数据解析
4.1 【数据爬取的合理边界在哪里?】
4.2 【目标树立】
4.3 【学习内容】任务一:正则表达式解析
4.4 【学习内容】任务二:XPath与lxml解析
4.5 【学习内容】任务三:Beautitul Soup解析
4.6 【知识拓展】“美食杰”网站数据解析
4.7 【单元过关】
4.8 【答疑讨论】
5 模块四 网页数据存储
5.1 【爬取的数据保存后一定安全吗?】
5.2 【目标树立】
5.3 【学习内容】任务一:数据存储到文本文件中
5.4 【学习内容】任务二:数据存储到MySQL数据库中
5.5 【学习内容】任务三:数据存储到Mongo数据库中
5.6 【知识拓展】“豆瓣”电影数据获取与存储
5.7 【单元过关】
5.8 【答疑讨论】
6 模块五 常规动态网页数据爬取
6.1 【目标树立】
6.2 【学习内容】任务一:Selenium库安装及浏览器补丁下载
6.3 【学习内容】任务二:Selenium快速入门
6.4 【学习内容】任务三:元素选取
6.5 【知识拓展】“斗鱼”网站数据获取
6.6 【单元过关】
6.7 【答疑讨论】
7 模块六:综合案例
7.1 项目需求:世界大学城空间留言板数据爬取
7.2 项目需求:链家长沙楼盘信息爬取
7.3 项目需求:猫眼电影网站电影信息爬取
7.4 项目需求:斗鱼网站信息爬取
7.5 项目展示与代码示例
【知识拓展】“京东”“亚马逊”网站数据抓取
上一节
下一节
选择班级
确定
取消
图片预览