课程门户-章节详情

曹文

1 第0单元基础知识导学
- 1.1 认识计算机和程序
- 1.2 认识Python
2 第1单元顺序：使用海龟绘图画太极图
- 2.1 单元导学
- 2.2 【任务概述】
  - 2.2.1 任务分析
  - 2.2.2 任务准备
- 2.3 任务1 使用顺序语句画太极图
- 2.4 任务2 使用变量控制填涂颜色和画笔粗细
- 2.5 【单元小结】
- 2.6 【随堂练习】
3 第2单元数字与字符串：打印计算机信息图卡
- 3.1 单元导学
- 3.2 【任务概述】
  - 3.2.1 任务分析
  - 3.2.2 任务准备
- 3.3 任务1 使用数字表示计算机性能指标
- 3.4 任务2 使用字符串格式化图卡信息
- 3.5 任务3 打印信息图卡的时间戳
- 3.6 【单元小结】
- 3.7 【随堂练习】
4 第3单元循环：使用海龟绘图画五角星
- 4.1 单元导学
- 4.2 【任务概述】
  - 4.2.1 任务分析
  - 4.2.2 任务准备
- 4.3 任务1-1 使用for循环画矩形及竖辅助线
- 4.4 任务1-2 使用while循环画矩形横辅助线
- 4.5 任务2 使用循环语句画五角星
- 4.6 任务3 学习嵌套循环语句
- 4.7 【单元小结】
- 4.8 【随堂练习】
5 第4单元分支：恺撒密码加解密信息
- 5.1 单元导学
- 5.2 【任务概述】
  - 5.2.1 任务分析
  - 5.2.2 任务准备
- 5.3 任务1 使用分支程序结构打印ASCII表
- 5.4 任务2 使用嵌套分支语句加解密信息
- 5.5 【单元小结】
- 5.6 【随堂练习】
6 第5单元列表和元组：绘制CPC历史决议词云图
- 6.1 单元导学
- 6.2 【任务概述】
  - 6.2.1 任务分析
  - 6.2.2 任务准备
- 6.3 任务1 读取历史决议文件数据
- 6.4 任务2 提取分词后的关键词列表
- 6.5 任务3 统计分词关键词出现频次
- 6.6 任务4 排序关键词并绘制词云图
- 6.7 任务5 学习复制和清空列表
- 6.8 任务6 使用元组改写关键词统计
- 6.9 【单元小结】
- 6.10 【随堂练习】
7 第6单元字典和集合：绘制人口普查数据图表
- 7.1 单元导学
- 7.2 【任务概述】
  - 7.2.1 任务分析
  - 7.2.2 任务准备
- 7.3 任务1 使用字典存储人口数据
- 7.4 任务2 遍历并排序全国人口数据字典值
- 7.5 任务3 创建全国人口数柱状图
- 7.6 任务4 创建地区人口分布地图
- 7.7 任务5 学习集合数据类型
- 7.8 【单元小结】
- 7.9 【随堂练习】
8 第7单元函数：获取照片拍摄地址信息
- 8.1 单元导学
- 8.2 【任务概述】
  - 8.2.1 任务分析
  - 8.2.2 任务准备
- 8.3 任务1 使用函数复用代码
- 8.4 任务2 使用位置参数获取照片经纬度
- 8.5 任务3 使用关键字参数查询地址信息
- 8.6 任务4 使用默认值参数查询地址信息
- 8.7 任务5 使用不定长参数查询地址信息
- 8.8 【单元小结】
- 8.9 【随堂练习】
9 第9单元 OOP：采集网络图书数据
- 9.1 单元导学
- 9.2 【任务概述】
  - 9.2.1 任务分析
  - 9.2.2 任务准备
- 9.3 任务1 初步认识类和对象
- 9.4 任务2 编写爬虫基类
- 9.5 任务3 检索并爬取当当网图书
- 9.6 任务4 检索并爬取豆瓣网图书
- 9.7 【单元小结】
- 9.8 【随堂练习】
10 附录1：搭建Python开发环境
- 10.1 安装Python解释器
- 10.2 安装、配置Visual Studio Code
- 10.3 VS Code中编写hello world

任务3 检索并爬取当当网图书

1 看一看
2 读一读
3 试一试

1. 解析当当网图书查询网页

要解析数据，先要分析HTML的DOM结构，我们可以直接使用浏览器在当当网上查询图书后，在页面任意位置右键鼠标，在快捷菜单中选择“检查（inspect）”，选择“元素（Elements）”选项卡就可以看到我们通过程序查询返回的HTML文件内容了。

下图就是以“python”为关键字查询的结果。

当当.jpg

仔细观察HTML文档会发现，所有的图书查询结果都包含在一个<ul></ul>标签对中，而每一本图书的信息包含在<ul>包含的<li></li>标签对中。对数据的解析，就是沿着HTML的DOM结构，抽茧剥丝地找到我们最终需要的图书信息数据项。

BeautifulSoup类为我们提供了使用程序对HTML的操作接口，但BeautifulSoup需要提供一个HTML格式的解析器，这里为了简单，使用了Python自带的“html.parser”解析器。核心代码如下：

 html_text = BeautifulSoup(self.search_book(), "html.parser")
        # 通过HTML标签的属性特征来查找元素/element
        # <ul class="bigimg" id="component_59"></ul>
        # book_doc = html_text.find(id="component_59")
        # bs4的find()方法根据tag名、属性等查找元素
        book_doc = html_text.find(name='ul', attrs={'class': ['bigimg'],'id': 'component_59'})
        # 每个li标签，就是一本图书的数据
        # bs4的select()方法获得一个element/tag的列表
        for book_tag in book_doc.select('li'):
            # 实例化Book对象
            book = Book()
            # 搜索文档树
            # <p class="name" name="title">该节点图书名称广告太多
            book.title = book_tag.a['title']
            # <p class="search_book_author">
            # 包括作者、出版日期、出版社等3个<span>
            # book_info = book_tag.select('p[class="search_book_author"]')
            book_info = book_tag.find(name='p',class_='search_book_author').text
            ……

2. JSON格式保存数据

爬取的当当网的数据需要以JSON格式的方式写入文件中，之前我们已经学习知道json.dump( )方法可以实现，它能将Python对象转换为适当的json对象，但我们这里是自定义的Book对象。如何让Python知道我们自己定义的对象与JSON对象之间的转换映射关系了？需要通过改写json.JSONEncoder类的default(self, obj)成员方法来实现。具体代码如下。

book encoder.png

json模块的JSONEncoder类用于实现Python数据结构的可扩展JSON编码器，它默认支持Python的基本数据类型，对我们自己定义的类就需要显示的指明转换器了。

【视频导学】

1. 解析当当网图书查询网页

2. JSON格式保存数据

【DEMO】从当当网检索并解析结果

图片预览