PhantomJS针对反爬,无界面浏览器
上一节
下一节
PhantomJS 将QtWebKit作为其核心浏览器的功能。这个浏览器是无界面的,可以直接使用代码操作它,来实现相关的功能。
由于PhantomJS具有浏览器功能,对一些动态数据,可以被自动触发,就可以解决爬虫需要通过抓包分析,才能解决的动态数据加载的问题。但爬取效率不如通过抓包快。
使用PhantomJS,需要到PhantomJS官网下载PhantomJS,解压,配置环境变量。
python还需要Selectnium这个工具,才能使用。
pip install selenium
通过 import selenium 检验是否成功安装。
from selenium import webdriver
browser=webdriver.PantomJS()
browser.get('http://www.baidu.com')
browser.get_screenshot_as_file('baidu.jpg')
结果:


