课程门户-章节详情

曹文

1 第0单元基础知识导学
- 1.1 认识计算机和程序
- 1.2 认识Python
2 第1单元顺序：使用海龟绘图画太极图
- 2.1 单元导学
- 2.2 【任务概述】
  - 2.2.1 任务分析
  - 2.2.2 任务准备
- 2.3 任务1 使用顺序语句画太极图
- 2.4 任务2 使用变量控制填涂颜色和画笔粗细
- 2.5 【单元小结】
- 2.6 【随堂练习】
3 第2单元数字与字符串：打印计算机信息图卡
- 3.1 单元导学
- 3.2 【任务概述】
  - 3.2.1 任务分析
  - 3.2.2 任务准备
- 3.3 任务1 使用数字表示计算机性能指标
- 3.4 任务2 使用字符串格式化图卡信息
- 3.5 任务3 打印信息图卡的时间戳
- 3.6 【单元小结】
- 3.7 【随堂练习】
4 第3单元循环：使用海龟绘图画五角星
- 4.1 单元导学
- 4.2 【任务概述】
  - 4.2.1 任务分析
  - 4.2.2 任务准备
- 4.3 任务1-1 使用for循环画矩形及竖辅助线
- 4.4 任务1-2 使用while循环画矩形横辅助线
- 4.5 任务2 使用循环语句画五角星
- 4.6 任务3 学习嵌套循环语句
- 4.7 【单元小结】
- 4.8 【随堂练习】
5 第4单元分支：恺撒密码加解密信息
- 5.1 单元导学
- 5.2 【任务概述】
  - 5.2.1 任务分析
  - 5.2.2 任务准备
- 5.3 任务1 使用分支程序结构打印ASCII表
- 5.4 任务2 使用嵌套分支语句加解密信息
- 5.5 【单元小结】
- 5.6 【随堂练习】
6 第5单元列表和元组：绘制CPC历史决议词云图
- 6.1 单元导学
- 6.2 【任务概述】
  - 6.2.1 任务分析
  - 6.2.2 任务准备
- 6.3 任务1 读取历史决议文件数据
- 6.4 任务2 提取分词后的关键词列表
- 6.5 任务3 统计分词关键词出现频次
- 6.6 任务4 排序关键词并绘制词云图
- 6.7 任务5 学习复制和清空列表
- 6.8 任务6 使用元组改写关键词统计
- 6.9 【单元小结】
- 6.10 【随堂练习】
7 第6单元字典和集合：绘制人口普查数据图表
- 7.1 单元导学
- 7.2 【任务概述】
  - 7.2.1 任务分析
  - 7.2.2 任务准备
- 7.3 任务1 使用字典存储人口数据
- 7.4 任务2 遍历并排序全国人口数据字典值
- 7.5 任务3 创建全国人口数柱状图
- 7.6 任务4 创建地区人口分布地图
- 7.7 任务5 学习集合数据类型
- 7.8 【单元小结】
- 7.9 【随堂练习】
8 第7单元函数：获取照片拍摄地址信息
- 8.1 单元导学
- 8.2 【任务概述】
  - 8.2.1 任务分析
  - 8.2.2 任务准备
- 8.3 任务1 使用函数复用代码
- 8.4 任务2 使用位置参数获取照片经纬度
- 8.5 任务3 使用关键字参数查询地址信息
- 8.6 任务4 使用默认值参数查询地址信息
- 8.7 任务5 使用不定长参数查询地址信息
- 8.8 【单元小结】
- 8.9 【随堂练习】
9 第9单元 OOP：采集网络图书数据
- 9.1 单元导学
- 9.2 【任务概述】
  - 9.2.1 任务分析
  - 9.2.2 任务准备
- 9.3 任务1 初步认识类和对象
- 9.4 任务2 编写爬虫基类
- 9.5 任务3 检索并爬取当当网图书
- 9.6 任务4 检索并爬取豆瓣网图书
- 9.7 【单元小结】
- 9.8 【随堂练习】
10 附录1：搭建Python开发环境
- 10.1 安装Python解释器
- 10.2 安装、配置Visual Studio Code
- 10.3 VS Code中编写hello world

任务2 编写爬虫基类

1 看一看
2 读一读
3 试一试
4 扩展知识

1. 编写基类Crawler

根据项目任务，我们需要分别从当当和豆瓣两个网站搜索并爬取网页来获取数据，并写入文件，虽然需要单独编写两个类分别实现对当当和豆瓣网的爬虫操作，但两个类还是有一些共性的部分，比如：搜索之前都需要知道图书的名字、爬取数据后都需要保存到文件中去等等。可以将共性部分抽取出来，设计Crawler基类，如下图所示。

crawler基类.png

Crawler类包括了两个属性，一个是表示书籍名称的字符串book_name，另一个是存储书籍信息的列表book_data，此外，它还有一个构造函数，以及将图书数据写入文件的成员方法save_book( )，该方法需要一个字符串类型的形参file_name，表示要写入文件的路径与名称。

2. 改写父类的str方法

子类或者说派生类继承了基类/父类的方法后可以直接使用，也可以修改。既可以在继承的基础新增功能，也可以重写父类方法，实现与父类完全不同的功能。

直接打印一个实例对象时会输出该对象的地址，但如果想自定义输出内容，就可以通过改写父类object的__str__( )方法来实现，代码如下：

改写_str_.png

3. 继承父类

在本案例中，我们需要分别爬取当当网和豆瓣网的图书检索信息，所以编写DangDang类和DouBan类用于分别操作当当网和豆瓣网检索图书信息结果页面的HTML文档信息，它们共同的基类/父类是Crawler类，继承关系如下图所示。

派生类.png

从上面的UML类图中可以看出，search_book( )方法和parse_data( )方法是两个子类新增的，在父类中没有，且两个子类中实现的功能也不一样，一个是针对当当网，另一个是针对豆瓣网。

此外，因为爬取的当当网数据保存结果要以JSON格式写入文件，所以在DangDang类中重写了父类Crawler的save_book( )方法，覆盖父类逐行文本写入的方式，取而代之的是直接写入JSON字符串。

派生类/子类的语法格式如下：

class DerivedClassName(BaseClassName):
    <statement-1>
    ……
    <statement-N>

如果要在子类中直接引用父类的方法，可以使用super( )方法。我们来写一个简单的DangDang类，继承自Crawler类，只有构造函数。

改写父类方法.png

【视频导学】

1. 编写基类Crawler

2. 改写父类的str方法

3. 继承父类

【DEMO】编写爬虫基类Crawler

【视频导学】

图片预览

【视频导学】

1. 编写基类Crawler

2. 改写父类的__str__方法

3. 继承父类

【DEMO】编写爬虫基类Crawler

【视频导学】

图片预览

2. 改写父类的str方法