数据采集与网络爬虫(专业基础)
王宁
目录
暂无搜索结果
Python基础
● 本章导读
● Python开发环境配置
● 运算符、表达式与内置对象
● print()函数的三种输出方式
● 条件语句与循环语句
● random库和随机数运用
● 函数
● 文件操作
● 探讨人工智能领域最新发展及其标志性成就
Python网络爬虫技术
● 模块一 初识网络爬虫
● 【你知道什么是大数据吗?】
● 【目标树立】
● 【学习内容】任务一:认识爬虫与robots协议
● 【学习内容】http以及https协议
● 【学习内容】浏览器开发者工具的使用
● 【知识拓展】网站robots协议含义解析
● 【单元过关】
● 【答疑讨论】
● 模块二 网页数据获取
● 【大数据时代性,个人隐私如何保护?】
● 【目标树立】
● 【学习内容】任务二:requests库获取静态网页数据
● iter_content方法
● 发送post请求
● 代码练习:百度翻译
● 模块三 网页数据提取与解析技术
● 【数据爬取的合理边界在哪里?】
● 爬取结构化的json数据
● 非结构化数据提取--Xpath
● jsonpath模块
● 非结构化数据提取-bs4
● 正则表达式
● 数据存储
● CSV文件存储
● 【学习内容】任务一:正则表达式解析
● 【学习内容】任务三:Beautitul Soup解析
● 【知识拓展】“美食杰”网站数据解析
● 【单元过关】
● 【答疑讨论】
● 模块四 网页数据存储
● 【爬取的数据保存后一定安全吗?】
● 【目标树立】
● 【学习内容】任务一:数据存储到文本文件中
● 【学习内容】任务二:数据存储到MySQL数据库中
● 【学习内容】任务三:数据存储到Mongo数据库中
● 【知识拓展】“豆瓣”电影数据获取与存储
● 【单元过关】
● 【答疑讨论】
● 模块五 常规动态网页数据爬取
● 【目标树立】
● 【学习内容】任务一:Selenium库安装及浏览器补丁下载
● 【学习内容】任务二:Selenium快速入门
● 【学习内容】任务三:元素选取
● 【知识拓展】“斗鱼”网站数据获取
● 【单元过关】
● 【答疑讨论】
● 模块六:综合案例
● 项目需求:世界大学城空间留言板数据爬取
● 项目需求:链家长沙楼盘信息爬取
● 项目需求:猫眼电影网站电影信息爬取
● 项目需求:斗鱼网站信息爬取
● 项目展示与代码示例
● 【课程导学】
● 1.课程介绍
● 2.教学文件
● 3.考核方案
● 4.课程设计
● 5.教学团队
● 6.课堂实录
● 7.课程获奖
● 【学习内容】任务二:认识反爬虫
模块一 初识网络爬虫
上一节
下一节
选择班级
确定
取消
图片预览