数据采集
彭超华
目录
暂无搜索结果
1 课程学习导引(必读)
1.1 教学大纲
1.2 教学日历
1.3 教学方案设计
1.4 参考资料及链接
1.5 考核方式
1.6 课前软件安装(重要)
2 数据采集概述(2学时)
2.1 本讲数据采集的相关网站
2.2 本讲教案
2.3 数据采集方法及工具
2.4 八爪鱼采集器的初步体验
2.5 【综合案例】利用模板采集,采集搜房网新房数据信息
2.6 本讲课件
3 八爪鱼采集器应用(6学时)
3.1 八爪鱼采集器的基本应用:自定义采集(2学时)
3.1.1 本讲数据采集的相关网站
3.1.2 单页数据采集
3.1.3 多页数据采集(循环翻页)
3.1.4 【综合案例】爬取某静态网站电影信息
3.2 八爪鱼采集器的高级应用(4学时)
3.2.1 登录采集
3.2.2 循环采集
3.2.3 ajax加载及滚动采集
3.2.4 xpath元素定位
3.2.5 采集错误排查
3.2.6 【综合案例】爬取某静态网站电影信息
3.3 本讲课件
4 python网络爬虫基础(2学时)低阶
4.1 课前任务:安装Vscode
4.2 python面向对象程序设计【自学】
4.2.1 类与对象
4.2.2 类的继承
4.2.3 类的多态
4.3 认识python爬虫
4.4 Web网页基础:HTML
4.5 HTTP基本原理
4.6 本讲课件
5 静态网页数据爬取(10学时)中高阶
5.1 爬虫的基本原理
5.2 网页数据的获取:requests库的使用
5.2.1 课件:利用requests库获取网页源码
5.3 网页数据的解析
5.3.1 Xpath语法及lxml库的使用
5.3.1.1 课件:利用lxml库(xpath)解析文本
5.3.2 CSS选择器及BeautifulSoup库、parsel库的使用
5.3.2.1 视频学习:利用BS4库解析网页内容
5.3.2.2 课件:利用bs库解析网页内容
5.3.2.3 课件:利用parsel库(css)解析网页
5.3.3 正则表达式及re库的使用
5.3.3.1 课件:利用正则表达式(re库)解析网页内容
5.4 数据的存储
5.5 【综合案例】爬取某静态网站电影信息
6 动态网页数据爬取(10学时)中高阶
6.1 Ajax动态网页
6.2 使用reqeuests库爬取动态网页
6.2.1 【综合案例】爬取百度图片
6.2.2 【综合案例】爬取某动态网站图书信息
6.2.3 课件:基于requests及ajax分析爬取动态网页
6.3 模拟登录
6.3.1 使用表单登录方法模拟登录
6.3.2 基于Cookie的登录
6.3.3 【综合案例】爬取某网站登录后电影信息
6.3.4 课件:模拟登录及常见反爬机制
6.4 使用Selenium库爬取动态页面
6.4.1 Selenium和WebDriver的安装和配置
6.4.2 Selenium的基本使用
6.4.3 Selenium案例应用
6.4.4 课件:使用Selenium库爬虫动态页面
6.4.5 【综合案例】Selenium爬取某网站电影信息
7 课程总结及课程设计
7.1 课程总结
7.2 课程设计
使用reqeuests库爬取动态网页
上一节
下一节
选择班级
确定
取消
图片预览