课后实训:二手房数据爬取
上一节
下一节
本项目小结
下面的实训,即是将所学应用于二手房的分析。
同学们可以根据自己学到的内容实现更好、更有意义的结果。(可以对应地将主题切换为疫情数据获取与可视化)
【实训目的】
通过本次实训,要求巩固网络数据抓取过程和Python数据抓取常用包:requests、Beautiful Soup的使用。
【实训环境】
PyCharm环境、Python 3.7、Pandas、NumPy、matplotlib、requests、BeautifulSoup4
【实训内容】
一个完整、充分的数据抓取过程主要包括以下步骤:
收集/观察网页数据信息;
探索和准备数据抓取;
页面分析与程序设计;
异常数据与脏数据分析;
数据分析与展现。
在接下来的实训中,我们以温州地区在售二手房为数据获取目标,按照以上步骤进行数据抓取、处理、分析与预测。(https://wz.***.***.com/house/i32/)
一、网络数据源码获取与分析
(1)进入网站,查看源代码,确认可以获取信息
(2)撰写代码从网络上抓取数据,并进行结构分析
二、页面数据分析并存储
分析出有用的数据:标题、单价、总价、面积、房间数、房龄、地理位置及其他可用信息,撰写代码获取数据并结果保存为csv文件。获取的数据结构示例如图所示。

三、多次调用获取最近1000个在售房源数据
调用以上代码,获取足够的数据用于分析二手房房价。
四、数据统计与分析
获取温州地区二手房房价的最值、平均值、中位数。结果示例如图所示。

五、房价统计分析结果的可视化展现
使用直方图展现温州地区的二手房价格统计结果,横坐标为房价,纵坐标为二手房房源的数量。示例参考如图所示。


