课程门户-章节详情

1+X企业财务与会计机器人应用

周燕玲、邓凯月、郭嘉坚、黄可轩

1 课程导学
- 1.1 课程介绍
2 初级-Python入门
- 2.1 思政园地【工匠精神】
- 2.2 Python简介
- 2.3 Python环境搭建
- 2.4 Python程序运行方法
- 2.5 总结
3 初级- python编程基础
- 3.1 思政园地【华为构建万物互联的智能世界】
- 3.2 章节导读
- 3.3 pythom基础语法
- 3.4 python数据类型
- 3.5 python运算符
- 3.6 python输入和输出
- 3.7 总结与复习
4 初级- Python程序结构
- 4.1 思政园地【树立正确消费观】
- 4.2 章节导读
- 4.3 序列和块
- 4.4 分支结构
- 4.5 循环结构
- 4.6 总结与复习
5 初级-函数与模块
- 5.1 思政园地VS章节导读
- 5.2 函数的定义和调用
- 5.3 函数的参数
- 5.4 匿名函数
- 5.5 模块和作用域
- 5.6 总结与复习
6 进阶-python面向对象
- 6.1 思政园地VS章节导读
- 6.2 面向对象技术简介
- 6.3 初探面相对象
- 6.4 细化类的语法
- 6.5 类的继承
- 6.6 细化继承语法
- 6.7 总结与复习
7 进阶-异常处理
- 7.1 思政园地VS章节导读
- 7.2 异常处理语句
- 7.3 引发异常
- 7.4 异常与资源管理
- 7.5 总结复习
8 初级进阶-总结
- 8.1 自学VS自测
- 8.2 综合案例分析
  - 8.2.1 函数与模块案例讲解与分析
  - 8.2.2 面向对象案例讲解与分析
9 高级-文件管理
- 9.1 思政模块VS章节导读
- 9.2 文件的打开与关闭
- 9.3 文件的操作
  - 9.3.1 Excel文件
  - 9.3.2 CSV文件
  - 9.3.3 JSON文件
- 9.4 总结与复习
10 高级-python数据管理
- 10.1 思政园地VS章节导读
- 10.2 对象序列化
  - 10.2.1 pickle模块综合案例
  - 10.2.2 shelve模块综合案例
  - 10.2.3 总结与测试
- 10.3 Python数据库处理
  - 10.3.1 数据处理简介
  - 10.3.2 综合案例分析
- 10.4 Python访问MySQL数据库
  - 10.4.1 基础知识讲解
  - 10.4.2 案例分析
11 高级-数据转换
- 11.1 数据转换简介
- 11.2 csv模块
- 11.3 json模块
- 11.4 xml模块
  - 11.4.1 解析xml、遍历和访问节点
  - 11.4.2 对XML文件的修改
  - 11.4.3 综合案例
12 拓展-python爬虫
- 12.1 思政园地VS章节导读
- 12.2 初识爬虫
- 12.3 爬取
  - 12.3.1 urllib基础知识讲解
  - 12.3.2 urllib应用-get请求
  - 12.3.3 urllib应用-post请求和cookie
  - 12.3.4 requests基础知识讲解
  - 12.3.5 -cookie与session
  - 12.3.6 综合案例分析
13 拓展-信息提取与清洗
- 13.1 信息提取
  - 13.1.1 基于正则表达式数据信息提取
    - 13.1.1.1 正则表达式基础知识
    - 13.1.1.2 Python的re模块
    - 13.1.1.3 正则综合案例讲解与分析
  - 13.1.2 基于XPath的网页解析
    - 13.1.2.1 XPath基础知识
    - 13.1.2.2 XPath综合案例
  - 13.1.3 BeautifulSoup
- 13.2 Scrapy框架
14 拓展-Python科学计算
- 14.1 思政园地VS章节导读
- 14.2 Python数据分析工具
  - 14.2.1 Pandas
  - 14.2.2 Numpy
  - 14.2.3 Matplotlib
- 14.3 自然语言处理
- 14.4 数据分析方法

思政园地VS章节导读

1 思政园地
2 章节导读

一个大的项目开，需要团队各个成员有效沟通和合作。包括人与人的沟通，也包括人与程序的沟通--详实的代码注释。

初识爬虫

1.什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及。

网络爬虫就是一组能自动从网站的相关网页中自动搜索与提取数据的程序，提取与存储这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效，编写网络爬虫有特别的优势，尤其业界有专门为Python编写的各种各样的爬虫程序框架，使得爬虫程序的编写更加简单高效。

Python是一种面向对象的解释型计算机程序设计语言，该语言开源、免费、功能强大，而且语法简洁清晰，具有丰富和强大的库，是目前应用广泛的程序语言。

2.浏览网页的过程

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 https://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

3.预备知识

Python的程序基础、数据库基础，数据格式转换。

4.本章主要内容

(1)Python内建库urllib，讲解通过HTTP/HTTPS协议从互联网获取数据并向其提交请求的方法；

(2)Python第三方库requests，讲解通过HTTP/HTTPS协议从互联网获取数据并向其提交请求的方法；

(3)Python标准库re(正则检验)，讲解从所爬取HTML页面中提取关键信息的方法；

(4)Python第三方库Xpath，讲解从所爬取HTML页面中解析完整Web信息的方法；

(5) Python第三方库BeautifulSoup，讲解从所爬取HTML页面中解析完整Web信息的方法；

(6)Python第三方库Scrapy，介绍通过网络爬虫框架构造专业网络爬虫的基本方法。

初识爬虫

图片预览