个人介绍
数据采集

主讲教师:彭超华

第2期

学校: 成都锦城学院
开课院系: 工商管理学院
开课专业: 大数据管理与应用专业
学分: 2
课时: 32
《数据采集》课程介绍
《数据采集》课程是大数据管理与应用专业的专业必修课程。本课程包含的主要内容有:八爪鱼采集器的介绍和应用、python网络爬虫基础(HTTP基本原理、Web网页基础)、静态网页数据爬取(网页数据的获取:requests库的使用;网页数据的解析:Xpath语法及lxml库的使用、CSS选择器及、BeautifulSoup库、parsel库的使用、正则表达式及re库的使用;数据的存储:TXT文件文件存储、JSON文件存储、CSV文件存储)、动态网页数据爬取(Ajax动态网页、使用reqeuests库爬取动态网页、模拟登录、使用Selenium库爬取动态页面)。
教学大纲
参考资料
教材:Python网络爬虫基础教程,黑马程序员.人民邮电出版社.20226

参考书目:

1. 商务数据采集与处理(微课版),刘宝强主编,人民邮电出版社出版. 201911.(参考理由:补充八爪鱼采集器的内容)

2. Python3网络爬虫开发实战(2),崔庆才,人民邮电出版社.20219.(参考理由:参考案例内容)

3. Python爬虫大数据采集与挖掘,曾建平, 清华大学出版.20218.(参考理由:参考案例内容)

4. Python爬虫超详细实战攻略(微课视频版),夏敏捷,清华大学出版社. 2020.5月.(参考理由:参考案例内容)

5. python爬虫开发从入门到实战(微课版),谢乾坤. 人民邮电出版社.2018.9.(推荐理由:该教材通俗易懂,循序渐进,是非常好的入门参考教材。)

推荐阅读资料:

1. Python网络爬虫与信息提取,中国大学mooc. 嵩天、黄天羽.(推荐理由:mooc视频深入浅出地介绍了python网络爬虫与信息提取的基本知识,可作为本课程的参考学习资料。)

2. Python网络爬虫程序技术,中国大学mooc.黄锐军等.

推荐学习网址:

1. python100天:https://github.com/jackfrued/Python-100-Days 

2. MDN https://developer.mozilla.org/zh-CN/docs/Learn (学习 Web基础知识)

3. w3cschool官网https://www.w3cschool.cn/

4. 菜鸟教程https://www.runoob.com/

课程评价

教学资源
课程章节 | 文件类型   | 修改时间 | 大小 | 备注
1.1 教学大纲
视频
.mp4
2025-02-20 5.64MB
 
文档
.docx
2025-03-02 98.93KB
1.2 教学日历
文档
.docx
2025-02-23 307.34KB
1.3 教案
文档
.docx
2025-03-02 277.46KB
1.4 课程反思
文档
.doc
2025-06-08 312.50KB
1.8 课前软件安装(重要)
视频
.mp4
2025-02-20 32.22MB
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-04-18 --
 
附件
.${file.extension}
2025-04-18 --
2.3 数据采集方法及工具
文档
.ppt
2025-02-20 3.35MB
2.4 八爪鱼采集器的初步体验
文档
.ppt
2025-02-20 5.27MB
 
视频
.mp4
2025-02-20 13.87MB
 
视频
.mp4
2025-02-20 7.81MB
2.6 本讲课件
文档
.pptx
2025-02-20 3.53MB
3.1.2 单页数据采集
视频
.mp4
2025-02-20 9.23MB
 
视频
.mp4
2025-02-20 27.44MB
 
视频
.mp4
2025-02-20 22.09MB
 
视频
.mp4
2025-02-20 42.86MB
3.1.3 多页数据采集(循环翻页)
视频
.mp4
2025-02-20 12.23MB
 
视频
.mp4
2025-02-20 21.35MB
 
视频
.mp4
2025-02-20 69.62MB
3.2.1 登录采集
视频
.mp4
2025-02-20 39.68MB
3.2.2 循环采集
视频
.mp4
2025-02-20 18.62MB
 
视频
.mp4
2025-02-20 19.83MB
3.2.3 ajax加载及滚动采集
视频
.mp4
2025-02-20 44.98MB
 
视频
.mp4
2025-02-20 59.28MB
 
视频
.mp4
2025-02-20 31.61MB
3.2.4 xpath元素定位
视频
.mp4
2025-02-20 16.31MB
 
视频
.mp4
2025-02-20 31.01MB
 
视频
.mp4
2025-02-20 42.84MB
3.2.5 采集错误排查
视频
.mp4
2025-02-20 14.57MB
 
视频
.mp4
2025-02-20 40.54MB
 
视频
.mp4
2025-02-20 9.82MB
3.3 本讲课件
文档
.pptx
2025-02-20 66.81MB
4.1 课前任务:安装Vscode
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-02-20 --
 
附件
.${file.extension}
2025-03-29 --
4.2.1 类与对象
视频
.mp4
2025-02-20 24.92MB
4.2.2 类的继承
视频
.mp4
2025-02-20 16.59MB
4.2.3 类的多态
视频
.mp4
2025-02-20 10.88MB
4.3 认识python爬虫
视频
.mp4
2025-02-20 61.62MB
 
视频
.mp4
2025-02-20 42.23MB
 
视频
.mp4
2025-02-20 19.46MB
4.4 Web网页基础:HTML(2学时)
视频
.mp4
2025-02-20 53.37MB
 
视频
.mp4
2025-02-20 42.24MB
 
视频
.mp4
2025-02-20 38.84MB
4.5 HTTP基本原理(2学时)
视频
.mp4
2025-02-20 55.39MB
 
视频
.mp4
2025-02-20 51.53MB
 
视频
.mp4
2025-02-20 50.57MB
4.6 本讲课件
文档
.pptx
2025-02-20 1.84MB
5.3 网页数据的获取:requests库的使用
视频
.mp4
2025-02-20 41.24MB
5.3.1 课件:利用requests库获取网页源码
文档
.pdf
2025-02-20 977.53KB
5.4.1 Xpath语法及lxml库的使用
视频
.mp4
2025-02-20 36.06MB
5.4.1.1 课件:利用lxml库(xpath)解析文本
文档
.pdf
2025-02-20 563.54KB
5.4.2 CSS选择器及BeautifulSoup库、parsel库的使用
视频
.mp4
2025-02-20 26.03MB
5.4.2.1 视频学习:利用BS4库解析网页内容
视频
.mp4
2025-02-20 101.76MB
 
视频
.mp4
2025-02-20 68.19MB
 
视频
.mp4
2025-02-20 19.49MB
 
视频
.mp4
2025-02-20 61.64MB
5.4.2.2 课件:利用bs库解析网页内容
文档
.pdf
2025-02-20 249.13KB
5.4.2.3 课件:利用parsel库(css)解析网页
文档
.pdf
2025-02-20 408.36KB
5.4.3 正则表达式及re库的使用
视频
.mp4
2025-02-20 116.61MB
5.4.3.1 课件:利用正则表达式(re库)解析网页内容
文档
.pptx
2025-02-20 613.18KB
 
文档
.pdf
2025-02-20 540.37KB
6.2 使用reqeuests库爬取动态网页
视频
.mp4
2025-02-20 57.02MB
6.2.1 【综合案例】爬取百度图片
视频
.mp4
2025-02-20 61.92MB
 
视频
.mp4
2025-02-20 56.51MB
6.2.2 【综合案例】爬取某动态网站图书信息
视频
.mp4
2025-06-10 57.02MB
6.2.3 课件:基于requests及ajax分析爬取动态网页
文档
.pdf
2025-02-20 739.11KB
6.3.1 使用表单登录方法模拟登录
视频
.mp4
2025-02-20 76.17MB
6.3.2 基于Cookie的登录
视频
.mp4
2025-02-20 41.65MB
 
视频
.mp4
2025-02-20 40.89MB
6.3.4 课件:模拟登录及常见反爬机制
文档
.pdf
2025-02-20 299.82KB
6.4.1 Selenium和WebDriver的安装和配置
视频
.mp4
2025-02-20 23.12MB
 
附件
.${file.extension}
2025-06-17 --
 
附件
.${file.extension}
2025-06-17 --
 
视频
.mp4
2025-06-17 41.88MB
6.4.2 Selenium的基本使用
视频
.mp4
2025-02-20 103.14MB
 
视频
.mp4
2025-02-20 31.61MB
 
视频
.mp4
2025-02-20 47.52MB
 
视频
.mp4
2025-02-20 44.33MB
6.4.3 Selenium案例应用
视频
.mp4
2025-02-20 179.58MB
 
视频
.mp4
2025-02-20 66.51MB
 
视频
.mp4
2025-02-20 295.80MB
 
视频
.mp4
2025-02-20 66.31MB
 
视频
.mp4
2025-02-20 98.58MB
 
视频
.mp4
2025-02-20 124.99MB
6.4.4 课件:使用Selenium库爬虫动态页面
文档
.pdf
2025-02-20 611.94KB
提示框
提示框
确定要报名此课程吗?
确定取消

京ICP备10040544号-2

京公网安备 11010802021885号