数据采集
彭超华
目录
暂无搜索结果
1 课程学习导引(两课设计)
1.1 教学大纲
1.2 教学日历
1.3 教案
1.4 课程反思
1.5 课堂反思
1.5.1 第1次课(第1周)
1.5.2 第2次课(第2周)
1.5.3 第3次课(第3周)
1.5.4 第4次课(第4周)
1.5.5 第5次课(第5周)
1.5.6 第6次课(第6周)
1.5.7 第7次课(第7周)
1.5.8 第8次课(第9周)
1.5.9 第9次课(第10周)
1.5.10 第10次课(第11周
1.5.11 第11次课(第13周)
1.5.12 第12次课(第14周)
1.5.13 第13次课(第15周)
1.5.14 第14次课(第16周)
1.5.15 第15次课(第17周)
1.5.16 第16次课(第17周)
1.6 课程参考资料及链接
1.7 课程考核方式
1.8 课前软件安装(重要)
2 数据采集概述(2学时)
2.1 本讲数据采集的相关网站
2.2 本讲教案
2.3 数据采集方法及工具
2.4 八爪鱼采集器的初步体验
2.5 【综合案例】利用模板采集,采集搜房网新房数据信息
2.6 本讲课件
3 八爪鱼采集器应用(6学时)
3.1 八爪鱼采集器的基本应用:自定义采集(2学时)
3.1.1 本讲数据采集的相关网站
3.1.2 单页数据采集
3.1.3 多页数据采集(循环翻页)
3.1.4 【综合案例】爬取某静态网站电影信息
3.2 八爪鱼采集器的高级应用(4学时)
3.2.1 登录采集
3.2.2 循环采集
3.2.3 ajax加载及滚动采集
3.2.4 xpath元素定位
3.2.5 采集错误排查
3.2.6 【综合案例】爬取某静态网站电影信息
3.2.7 本讲数据采集的相关网站地址
3.3 本讲课件
4 python网络爬虫基础(4学时)低阶
4.1 课前任务:安装Vscode
4.2 python面向对象程序设计【自学】
4.2.1 类与对象
4.2.2 类的继承
4.2.3 类的多态
4.3 认识python爬虫
4.4 Web网页基础:HTML(2学时)
4.5 HTTP基本原理(2学时)
4.6 本讲课件
5 静态网页数据爬取(10学时)中高阶
5.1 课前任务:安装pycharm
5.2 爬虫的基本原理
5.3 网页数据的获取:requests库的使用
5.3.1 课件:利用requests库获取网页源码
5.4 网页数据的解析
5.4.1 Xpath语法及lxml库的使用
5.4.1.1 课件:利用lxml库(xpath)解析文本
5.4.2 CSS选择器及BeautifulSoup库、parsel库的使用
5.4.2.1 视频学习:利用BS4库解析网页内容
5.4.2.2 课件:利用bs库解析网页内容
5.4.2.3 课件:利用parsel库(css)解析网页
5.4.3 正则表达式及re库的使用
5.4.3.1 课件:利用正则表达式(re库)解析网页内容
5.5 数据的存储
5.6 【综合案例】爬取某静态网站电影信息
6 动态网页数据爬取(10学时)中高阶
6.1 Ajax动态网页
6.2 使用reqeuests库爬取动态网页
6.2.1 【综合案例】爬取百度图片
6.2.2 【综合案例】爬取某动态网站图书信息
6.2.3 课件:基于requests及ajax分析爬取动态网页
6.3 模拟登录
6.3.1 使用表单登录方法模拟登录
6.3.2 基于Cookie的登录
6.3.3 【综合案例】爬取某网站登录后电影信息
6.3.4 课件:模拟登录及常见反爬机制
6.4 使用Selenium库爬取动态页面
6.4.1 Selenium和WebDriver的安装和配置
6.4.2 Selenium的基本使用
6.4.3 Selenium案例应用
6.4.4 课件:使用Selenium库爬虫动态页面
6.4.5 【综合案例】Selenium爬取某网站电影信息
7 课程总结及课程设计
7.1 课程总结
7.2 课程设计
教案
上一节
下一节
选择班级
确定
取消
图片预览