背景介绍
数据获取的途径可以是互联网,通过网络爬虫可以爬取互联网中的各项实时数据。那么,什么是爬虫?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛。蜘蛛沿着网络爬取自己的猎物,而爬虫则沿着设计的路径爬取数据。网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。
用户获取网络数据的方式通过浏览器提交请求、下载网页代码、解析成页面来完成数据下载与浏览。爬虫就是模拟浏览器发送请求获取网页代码,从中提取有用的数据于存放于数据库或文件中。它的过程如图所示:
具体爬虫可以做什么?利用爬虫可以做一些有趣的事,比如:爬取古诗文;爬取电商数据:如意淘、惠惠购物助手、西贴、购物党;爬取社会化媒体数据;爬取金融数据进行量化分析;爬取新闻数据进行舆情、文章聚合等,这是取决于我们的需求及对问题的理解。
然而,爬过来的数据可能是杂乱无章的。比如股票数据,可能爬取下来只是一些看似很乱的数据,具体是涨是跌,看不出明确的意义。如何将这些数据转化为有用的信息,便是后续数据整理与解析的事了。详细的一般数据应用过程如图所示。

第七周具体任务
在本项目中,我们从最简单地网络数据一次爬取、定时爬取热门电影数据开始,最终实现房产租赁数据的采集、清洗、分析和展现。
为完成本项目,需要掌握以下知识点:

(来源:大数据1801 董露丹笔记)
关于本项目的爬虫技术基本介绍视频:
实验报告下载
jupyter notebook版下载
doc版下载
项目资源下载(网站数据)

