课程门户-章节详情

曹文

1 第0单元基础知识导学
- 1.1 认识计算机和程序
- 1.2 认识Python
2 第1单元顺序：使用海龟绘图画太极图
- 2.1 单元导学
- 2.2 【任务概述】
  - 2.2.1 任务分析
  - 2.2.2 任务准备
- 2.3 任务1 使用顺序语句画太极图
- 2.4 任务2 使用变量控制填涂颜色和画笔粗细
- 2.5 【单元小结】
- 2.6 【随堂练习】
3 第2单元数字与字符串：打印计算机信息图卡
- 3.1 单元导学
- 3.2 【任务概述】
  - 3.2.1 任务分析
  - 3.2.2 任务准备
- 3.3 任务1 使用数字表示计算机性能指标
- 3.4 任务2 使用字符串格式化图卡信息
- 3.5 任务3 打印信息图卡的时间戳
- 3.6 【单元小结】
- 3.7 【随堂练习】
4 第3单元循环：使用海龟绘图画五角星
- 4.1 单元导学
- 4.2 【任务概述】
  - 4.2.1 任务分析
  - 4.2.2 任务准备
- 4.3 任务1-1 使用for循环画矩形及竖辅助线
- 4.4 任务1-2 使用while循环画矩形横辅助线
- 4.5 任务2 使用循环语句画五角星
- 4.6 任务3 学习嵌套循环语句
- 4.7 【单元小结】
- 4.8 【随堂练习】
5 第4单元分支：恺撒密码加解密信息
- 5.1 单元导学
- 5.2 【任务概述】
  - 5.2.1 任务分析
  - 5.2.2 任务准备
- 5.3 任务1 使用分支程序结构打印ASCII表
- 5.4 任务2 使用嵌套分支语句加解密信息
- 5.5 【单元小结】
- 5.6 【随堂练习】
6 第5单元列表和元组：绘制CPC历史决议词云图
- 6.1 单元导学
- 6.2 【任务概述】
  - 6.2.1 任务分析
  - 6.2.2 任务准备
- 6.3 任务1 读取历史决议文件数据
- 6.4 任务2 提取分词后的关键词列表
- 6.5 任务3 统计分词关键词出现频次
- 6.6 任务4 排序关键词并绘制词云图
- 6.7 任务5 学习复制和清空列表
- 6.8 任务6 使用元组改写关键词统计
- 6.9 【单元小结】
- 6.10 【随堂练习】
7 第6单元字典和集合：绘制人口普查数据图表
- 7.1 单元导学
- 7.2 【任务概述】
  - 7.2.1 任务分析
  - 7.2.2 任务准备
- 7.3 任务1 使用字典存储人口数据
- 7.4 任务2 遍历并排序全国人口数据字典值
- 7.5 任务3 创建全国人口数柱状图
- 7.6 任务4 创建地区人口分布地图
- 7.7 任务5 学习集合数据类型
- 7.8 【单元小结】
- 7.9 【随堂练习】
8 第7单元函数：获取照片拍摄地址信息
- 8.1 单元导学
- 8.2 【任务概述】
  - 8.2.1 任务分析
  - 8.2.2 任务准备
- 8.3 任务1 使用函数复用代码
- 8.4 任务2 使用位置参数获取照片经纬度
- 8.5 任务3 使用关键字参数查询地址信息
- 8.6 任务4 使用默认值参数查询地址信息
- 8.7 任务5 使用不定长参数查询地址信息
- 8.8 【单元小结】
- 8.9 【随堂练习】
9 第9单元 OOP：采集网络图书数据
- 9.1 单元导学
- 9.2 【任务概述】
  - 9.2.1 任务分析
  - 9.2.2 任务准备
- 9.3 任务1 初步认识类和对象
- 9.4 任务2 编写爬虫基类
- 9.5 任务3 检索并爬取当当网图书
- 9.6 任务4 检索并爬取豆瓣网图书
- 9.7 【单元小结】
- 9.8 【随堂练习】
10 附录1：搭建Python开发环境
- 10.1 安装Python解释器
- 10.2 安装、配置Visual Studio Code
- 10.3 VS Code中编写hello world

任务4 检索并爬取豆瓣网图书

1 看一看
2 读一读
3 试一试

1. 正则表达式

正则表达式（regularexpression）是一种描述字符串模式结构的方法，将模式（pattern）与字符序列（string）进行匹配，使用预定义的模式去匹配一类具有共同特征的字符串，如果符合规则的要求，就返回它。所谓模式也是一个字符串，它由一些普通字符和正则表达式元字符（metacharacters）组成，用于与字符串匹配，完成“查找和替换”之类的字符串处理任务。比如从字符串中找出有规律的手机号码、身份证号码、Email地址、URL网址等。

（1）模式定义

常见的正则表达式元字符及匹配示例见表

元字符.png

由于字符*、+、？等在正则表达式中有特殊的含义，因此它们不能用来匹配相应的普通字符。为了匹配有特殊含义的字符，必须使用转义序列“\”，比如：\.\?，就表示“.?”。除了作为转义序列符使用，还可以表示一些特殊序列，如下表所示：

特殊的正则表达式序列.png

（2）字符匹配

Python的re模块还为我们提供了多个函数用于匹配、搜索以及找出匹配对象和值，主要包括match( )、search( )和findall( )等：

match( )：从字符串开头去匹配并返回匹配的字符串的match对象，可以调用对象的group( )方法获取匹配成功的字符串；
search( )：并不局限于字符串的开头，扫描整个字符串找到匹配样式的第一个位置，并返回一个相应的匹配对象（match objects）；
findall( )：以字符串列表或字符串元组列表的形式返回所有非重叠匹配。

（3）字符替换

除了利用正则表达式对字符串进行搜索外，也用于以各种方式修改字符串，如分割、替换等，主要提供的函数有：

split( )：将字符串拆分为一个列表，在正则匹配的任何地方将其拆分。
sub( )：找到正则匹配的所有子字符串，并用不同的字符串替换它们。
subn( )：与sub( )相同，但返回新字符串和替换次数。

2. 使用正则表达式解析数据

要解析豆瓣网爬取的数据，就要识别其查询结果网页的结构，仔细观察发现，与当当网不同，豆瓣网是用<div></div>标签对来表示查询结果的，每一个<div>就是一本图书。其网页的DOM结构如下图所示。

豆瓣网.jpg

每一个本图书被装在一个“<div>……</div>”中，而我们需要提取的数据就包含在其中的子元素<div>里面，具体为“<divclass="title">”，该<div>包含的“<div>”包括了图书的作者、出版社等信息。也就是说，每本图书的信息包含在一个三层嵌套的<div>中。核心代码如下：


# 从HTML网页中提取所有CSS类型为content的div
        pattern_str = r'<div class="content">\s*'+ \
                          r'<div class="title">.*?'+ \
                          r'<div class="rating-info">.*?</div>\s*</div>.*?</div>'
        # re.S/re.DOTALL可以让“.”匹配换行符
        pattn = re.compile(pattern_str, re.DOTALL)
        for item in re.findall(pattn, self.search_book()):
            book = Book()
            # 从<a/>中直接提取图书名称
            # ?控制只匹配0或1个，最小匹配、非贪婪的
            # ( )提取整个字符串中符合括号里的正则的内容
            book_pattn = r'<a.*?>(.*?)</a>'
            book_info = re.findall(book_pattn, item)
            # 只包含一个元素
            book.title = book_info[0].strip()
            # 提取作者/译者和出版社
            book_pattn = r'<span class="subject-cast">(.+?)</span>'
            ……

匹配书名的正则表达式为“<a.*?>(.*?)</a>”，表示从一个超链接标签<a></a>中提起，提取的部分为圆括号部分“(.*?)”，表示非贪婪匹配。匹配作者和出版社等信息的正则表达式为“<span>(.+?)</span>”，包含在一对“<span>……</span>”中，通过“(.+?)”可以进行提取。

【视频导学】

1. 正则表达式

2. 使用正则表达式解析数据

【DEMO】从豆瓣网检索并解析结果

图片预览