
一个大的项目开,需要团队各个成员有效沟通和合作。包括人与人的沟通,也包括人与程序的沟通--详实的代码注释。
初识爬虫

1.什么是爬虫
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及。
网络爬虫就是一组能自动从网站的相关网页中自动搜索与提取数据的程序,提取与存储这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效,编写网络爬虫有特别的优势,尤其业界有专门为Python编写的各种各样的爬虫程序框架,使得爬虫程序的编写更加简单高效。
Python是一种面向对象的解释型计算机程序设计语言,该语言开源、免费、功能强大,而且语法简洁清晰,具有丰富和强大的库,是目前应用广泛的程序语言。
2.浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 https://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。
因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。
3.预备知识
Python的程序基础、数据库基础,数据格式转换。
4.本章主要内容
(1)Python内建库urllib, 讲解通过HTTP/HTTPS协议从互联网获取数据并向其提交请求的方法;
(2)Python第三方库requests,讲解通过HTTP/HTTPS协议从互联网获取数据并向其提交请求的方法;
(3)Python标准库re(正则检验),讲解从所爬取HTML页面中提取关键信息的方法;
(4)Python第三方库Xpath,讲解从所爬取HTML页面中解析完整Web信息的方法;
(5) Python第三方库BeautifulSoup,讲解从所爬取HTML页面中解析完整Web信息的方法;
(6)Python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法。