目录

  • 1 【课程导学】
    • 1.1 1.课程介绍
    • 1.2 2.教学文件
    • 1.3 3.考核方案
    • 1.4 4.课程设计
    • 1.5 5.教学团队
    • 1.6 6.课堂实录
    • 1.7 7.课程获奖
  • 2 模块一 初识网络爬虫
    • 2.1 【你知道什么是大数据吗?】
    • 2.2 【目标树立】
    • 2.3 【学习内容】任务一:认识爬虫与robots协议
    • 2.4 【学习内容】任务二:认识反爬虫
    • 2.5 【学习内容】任务三:开发环境准备
    • 2.6 【知识拓展】网站robots协议含义解析
    • 2.7 【单元过关】
    • 2.8 【答疑讨论】
  • 3 模块二 网页数据获取
    • 3.1 【大数据时代性,个人隐私如何保护?】
    • 3.2 【目标树立】
    • 3.3 【学习内容】任务一:谷歌浏览器开发者模式介绍
    • 3.4 【学习内容】任务二:requests库获取静态网页数据
    • 3.5 【学习内容】任务三:requests库获取动态网页数据
    • 3.6 【学习内容】任务四:urlLib获取网页数据
    • 3.7 【知识拓展】“京东”“亚马逊”网站数据抓取
    • 3.8 【单元过关】
    • 3.9 【答疑讨论】
  • 4 模块三 网页数据解析
    • 4.1 【数据爬取的合理边界在哪里?】
    • 4.2 【目标树立】
    • 4.3 【学习内容】任务一:正则表达式解析
    • 4.4 【学习内容】任务二:XPath与lxml解析
    • 4.5 【学习内容】任务三:Beautitul Soup解析
    • 4.6 【知识拓展】“美食杰”网站数据解析
    • 4.7 【单元过关】
    • 4.8 【答疑讨论】
  • 5 模块四 网页数据存储
    • 5.1 【爬取的数据保存后一定安全吗?】
    • 5.2 【目标树立】
    • 5.3 【学习内容】任务一:数据存储到文本文件中
    • 5.4 【学习内容】任务二:数据存储到MySQL数据库中
    • 5.5 【学习内容】任务三:数据存储到Mongo数据库中
    • 5.6 【知识拓展】“豆瓣”电影数据获取与存储
    • 5.7 【单元过关】
    • 5.8 【答疑讨论】
  • 6 模块五  常规动态网页数据爬取
    • 6.1 【目标树立】
    • 6.2 【学习内容】任务一:Selenium库安装及浏览器补丁下载
    • 6.3 【学习内容】任务二:Selenium快速入门
    • 6.4 【学习内容】任务三:元素选取
    • 6.5 【知识拓展】“斗鱼”网站数据获取
    • 6.6 【单元过关】
    • 6.7 【答疑讨论】
  • 7 模块六:综合案例
    • 7.1 项目需求:世界大学城空间留言板数据爬取
    • 7.2 项目需求:链家长沙楼盘信息爬取
    • 7.3 项目需求:猫眼电影网站电影信息爬取
    • 7.4 项目需求:斗鱼网站信息爬取
    • 7.5 项目展示与代码示例
【学习内容】任务二:requests库获取静态网页数据
  • 1 知识点讲解
  • 2 知识点ppt
  • 3 课堂实训

requests库的介绍(一)

简介:

       通过本视频的学习,掌握requests库的基本使用。具体的知识如下:

    1、requests库的方法

    2、requests库生成请求

    3、Response对象属性


注:视频中的代码可在“课程资料--源码文件夹中下载。


requests库的介绍(二)

简介:      

       通过本视频的学习,掌握requests库的基本使用。具体的知识如下:

    1、请求头的设置

    2、Timeout设置

    3、生成完整的HTTP请求


注:视频中的代码可在“课程资料--源码文件夹中下载。