课程门户-章节详情

数据采集与网络爬虫（专业基础）

王宁

Python基础
- ● 本章导读
- ● Python开发环境配置
- ● 运算符、表达式与内置对象
- ● print()函数的三种输出方式
- ● 条件语句与循环语句
- ● random库和随机数运用
- ● 函数
- ● 文件操作
- ● 探讨人工智能领域最新发展及其标志性成就
Python网络爬虫技术
- ● 模块一初识网络爬虫
  - ● 【你知道什么是大数据吗？】
  - ● 【目标树立】
  - ● 【学习内容】任务一：认识爬虫与robots协议
  - ● 【学习内容】http以及https协议
  - ● 【学习内容】浏览器开发者工具的使用
  - ● 【知识拓展】网站robots协议含义解析
  - ● 【单元过关】
  - ● 【答疑讨论】
- ● 模块二网页数据获取
  - ● 【大数据时代性，个人隐私如何保护？】
  - ● 【目标树立】
  - ● 【学习内容】任务二：requests库获取静态网页数据
  - ● iter_content方法
  - ● 发送post请求
  - ● 代码练习：百度翻译
- ● 模块三网页数据提取与解析技术
  - ● 【数据爬取的合理边界在哪里？】
  - ● 爬取结构化的json数据
  - ● 非结构化数据提取--Xpath
  - ● jsonpath模块
  - ● 非结构化数据提取-bs4
  - ● 正则表达式
  - ● 数据存储
    - ● CSV文件存储
  - ● 【学习内容】任务一：正则表达式解析
  - ● 【学习内容】任务三：Beautitul Soup解析
  - ● 【知识拓展】“美食杰”网站数据解析
  - ● 【单元过关】
  - ● 【答疑讨论】
- ● 模块四网页数据存储
  - ● 【爬取的数据保存后一定安全吗？】
  - ● 【目标树立】
  - ● 【学习内容】任务一：数据存储到文本文件中
  - ● 【学习内容】任务二：数据存储到MySQL数据库中
  - ● 【学习内容】任务三：数据存储到Mongo数据库中
  - ● 【知识拓展】“豆瓣”电影数据获取与存储
  - ● 【单元过关】
  - ● 【答疑讨论】
- ● 模块五常规动态网页数据爬取
  - ● 【目标树立】
  - ● 【学习内容】任务一：Selenium库安装及浏览器补丁下载
  - ● 【学习内容】任务二：Selenium快速入门
  - ● 【学习内容】任务三：元素选取
  - ● 【知识拓展】“斗鱼”网站数据获取
  - ● 【单元过关】
  - ● 【答疑讨论】
- ● 模块六：综合案例
  - ● 项目需求：世界大学城空间留言板数据爬取
  - ● 项目需求：链家长沙楼盘信息爬取
  - ● 项目需求：猫眼电影网站电影信息爬取
  - ● 项目需求：斗鱼网站信息爬取
  - ● 项目展示与代码示例
    - ● 【课程导学】
      - ● 1.课程介绍
      - ● 2.教学文件
      - ● 3.考核方案
      - ● 4.课程设计
      - ● 5.教学团队
      - ● 6.课堂实录
      - ● 7.课程获奖
      - ● 【学习内容】任务二：认识反爬虫

模块一初识网络爬虫

图片预览