【任务概述】
-
1 单元成果
-
2 觅知
上一节
下一节
【成果产出】图书数据采集
搜索引擎和网站时时刻刻都在采集大量数据,也就是我们平常所说的网络爬虫(web crawler),有时也称为蜘蛛(spider)或蜘蛛机器人(spider-robot),是一种从万维网上下载并索引内容的程序,通常由搜索引擎操作以进行Web爬取(web spidering)。如果你想要买本图书开启Python之旅,怎么办了?很有可能你会去当当网,或者豆瓣网上去检索图书信息并挑选自己心仪的图书。本章案例就是通过书名并检索图书信息,然后将查询结果的网页进行解析,找出网页中的图书数据,并将每一本图书的基本数据:书名、作者和出版社信息提取出来以两种格式保存到文件中。效果如下图所示。



