数据采集

彭超华

目录

  • 1 课程学习导引(必读)
    • 1.1 教学大纲
    • 1.2 教学日历
    • 1.3 教学方案设计
    • 1.4 参考资料及链接
    • 1.5 考核方式
    • 1.6 课前软件安装(重要)
  • 2 数据采集概述(2学时)
    • 2.1 本讲数据采集的相关网站
    • 2.2 本讲教案
    • 2.3 数据采集方法及工具
    • 2.4 八爪鱼采集器的初步体验
    • 2.5 【综合案例】利用模板采集,采集搜房网新房数据信息
    • 2.6 本讲课件
  • 3 八爪鱼采集器应用(6学时)
    • 3.1 八爪鱼采集器的基本应用:自定义采集(2学时)
      • 3.1.1 本讲数据采集的相关网站
      • 3.1.2 单页数据采集
      • 3.1.3 多页数据采集(循环翻页)
      • 3.1.4 【综合案例】爬取某静态网站电影信息
    • 3.2 八爪鱼采集器的高级应用(4学时)
      • 3.2.1 登录采集
      • 3.2.2 循环采集
      • 3.2.3 ajax加载及滚动采集
      • 3.2.4 xpath元素定位
      • 3.2.5 采集错误排查
      • 3.2.6 【综合案例】爬取某静态网站电影信息
    • 3.3 本讲课件
  • 4 python网络爬虫基础(2学时)低阶
    • 4.1 课前任务:安装Vscode
    • 4.2 python面向对象程序设计【自学】
      • 4.2.1 类与对象
      • 4.2.2 类的继承
      • 4.2.3 类的多态
    • 4.3 认识python爬虫
    • 4.4 Web网页基础:HTML
    • 4.5 HTTP基本原理
    • 4.6 本讲课件
  • 5 静态网页数据爬取(10学时)中高阶
    • 5.1 爬虫的基本原理
    • 5.2 网页数据的获取:requests库的使用
      • 5.2.1 课件:利用requests库获取网页源码
    • 5.3 网页数据的解析
      • 5.3.1 Xpath语法及lxml库的使用
        • 5.3.1.1 课件:利用lxml库(xpath)解析文本
      • 5.3.2 CSS选择器及BeautifulSoup库、parsel库的使用
        • 5.3.2.1 视频学习:利用BS4库解析网页内容
        • 5.3.2.2 课件:利用bs库解析网页内容
        • 5.3.2.3 课件:利用parsel库(css)解析网页
      • 5.3.3 正则表达式及re库的使用
        • 5.3.3.1 课件:利用正则表达式(re库)解析网页内容
    • 5.4 数据的存储
    • 5.5 【综合案例】爬取某静态网站电影信息
  • 6 动态网页数据爬取(10学时)中高阶
    • 6.1 Ajax动态网页
    • 6.2 使用reqeuests库爬取动态网页
      • 6.2.1 【综合案例】爬取百度图片
      • 6.2.2 【综合案例】爬取某动态网站图书信息
      • 6.2.3 课件:基于requests及ajax分析爬取动态网页
    • 6.3 模拟登录
      • 6.3.1 使用表单登录方法模拟登录
      • 6.3.2 基于Cookie的登录
      • 6.3.3 【综合案例】爬取某网站登录后电影信息
      • 6.3.4 课件:模拟登录及常见反爬机制
    • 6.4 使用Selenium库爬取动态页面
      • 6.4.1 Selenium和WebDriver的安装和配置
      • 6.4.2 Selenium的基本使用
      • 6.4.3 Selenium案例应用
      • 6.4.4 课件:使用Selenium库爬虫动态页面
      • 6.4.5 【综合案例】Selenium爬取某网站电影信息
  • 7 课程总结及课程设计
    • 7.1 课程总结
    • 7.2 课程设计
课前软件安装(重要)

本课程必备软件资源:

一、八爪鱼采集器

下载地址:

https://www.bazhuayu.com/download




二、 python解释器(已有的无需重复安装)

下载地址:

https://www.python.org/downloads/ 



三、安装PyCharm Community Edition 版本

下载地址:

https://www.jetbrains.com.cn/pycharm/download


 安装步骤:       


如何用pycharm新建工程?

1,打开cmd命令提示符窗口,运行where python

找到python解释器所在位置。

提示:如果安装有anaconda3,则选择anaconda3下面的解释器。没有安装,则随机选择一个python3.7以上的python解释器即可。记住这个路径。




2,打开pycharm,新建工程。

选择:使用已配置好的解释器,选择:add interpreter,添加解释器。


3,add python Interpreter窗口,选择system interpreter,单击右侧省略号         


4,根据第一步查找到的路径,找到python解释器。按OK添加。按OK确认。按按create。创建新工程成功。




四、安装本课程必要的第三方库及插件(重要,务必提前配置安装)

1、安装第三方库

以安装requests库为例(其他库类似安装),打开pycharm,在terminal终端运行(或者在cmd终端/anaconda prompt终端运行):

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/  


需要安装的第三方库有:

(1)requests

(2)lxml

(3)beautifulsoup4

(4)parsel

(5)selenium    


2、检验环境是否配置成功:

在当前工程文件夹下面,新建test.py文件,执行以下代码。若能成功运行,说明环境配置成功。

(1)单击工程文件夹,右键,选择:新建—Python File—test.py文件


(2)在test.py文件中输入以下测试代码:

import requests

import lxml

import bs4

import parsel

import selenium

print("hello world")


(3)在代码区单击右键(或者单击运行按钮)—Run 'test' 运行当前文件。


3、推荐安装插件:

(1)AI助手:TONGYI Lingma  



(2) 翻译插件:Translation



(3)汉化插件  Chinese (Simplified) Language Pack  (可选)



五、下载google浏览器及浏览器驱动(参考6.4.1小节)(不用安装)

google浏览器下载地址:

https://www.google.cn/intl/en_uk/chrome/    



下载驱动:

https://chromedriver.chromium.org/downloads  


驱动下载参考博文:

下载chromedriver

六、安装截图软件:snipaste(可选)

移步资料模块下载使用

七、安装vscode

下载地址:

https://code.visualstudio.com/