课程门户-章节详情

周燕玲、邓凯月、郭嘉坚、黄可轩

1 课程导学
- 1.1 课程介绍
2 初级-Python入门
- 2.1 思政园地【工匠精神】
- 2.2 Python简介
- 2.3 Python环境搭建
- 2.4 Python程序运行方法
- 2.5 总结
3 初级- python编程基础
- 3.1 思政园地【华为构建万物互联的智能世界】
- 3.2 章节导读
- 3.3 pythom基础语法
- 3.4 python数据类型
- 3.5 python运算符
- 3.6 python输入和输出
- 3.7 总结与复习
4 初级- Python程序结构
- 4.1 思政园地【树立正确消费观】
- 4.2 章节导读
- 4.3 序列和块
- 4.4 分支结构
- 4.5 循环结构
- 4.6 总结与复习
5 初级-函数与模块
- 5.1 思政园地VS章节导读
- 5.2 函数的定义和调用
- 5.3 函数的参数
- 5.4 匿名函数
- 5.5 模块和作用域
- 5.6 总结与复习
6 进阶-python面向对象
- 6.1 思政园地VS章节导读
- 6.2 面向对象技术简介
- 6.3 初探面相对象
- 6.4 细化类的语法
- 6.5 类的继承
- 6.6 细化继承语法
- 6.7 总结与复习
7 进阶-异常处理
- 7.1 思政园地VS章节导读
- 7.2 异常处理语句
- 7.3 引发异常
- 7.4 异常与资源管理
- 7.5 总结复习
8 初级进阶-总结
- 8.1 自学VS自测
- 8.2 综合案例分析
  - 8.2.1 函数与模块案例讲解与分析
  - 8.2.2 面向对象案例讲解与分析
9 高级-文件管理
- 9.1 思政模块VS章节导读
- 9.2 文件的打开与关闭
- 9.3 文件的操作
  - 9.3.1 Excel文件
  - 9.3.2 CSV文件
  - 9.3.3 JSON文件
- 9.4 总结与复习
10 高级-python数据管理
- 10.1 思政园地VS章节导读
- 10.2 对象序列化
  - 10.2.1 pickle模块综合案例
  - 10.2.2 shelve模块综合案例
  - 10.2.3 总结与测试
- 10.3 Python数据库处理
  - 10.3.1 数据处理简介
  - 10.3.2 综合案例分析
- 10.4 Python访问MySQL数据库
  - 10.4.1 基础知识讲解
  - 10.4.2 案例分析
11 高级-数据转换
- 11.1 数据转换简介
- 11.2 csv模块
- 11.3 json模块
- 11.4 xml模块
  - 11.4.1 解析xml、遍历和访问节点
  - 11.4.2 对XML文件的修改
  - 11.4.3 综合案例
12 拓展-python爬虫
- 12.1 思政园地VS章节导读
- 12.2 初识爬虫
- 12.3 爬取
  - 12.3.1 urllib基础知识讲解
  - 12.3.2 urllib应用-get请求
  - 12.3.3 urllib应用-post请求和cookie
  - 12.3.4 requests基础知识讲解
  - 12.3.5 -cookie与session
  - 12.3.6 综合案例分析
13 拓展-信息提取与清洗
- 13.1 信息提取
  - 13.1.1 基于正则表达式数据信息提取
    - 13.1.1.1 正则表达式基础知识
    - 13.1.1.2 Python的re模块
    - 13.1.1.3 正则综合案例讲解与分析
  - 13.1.2 基于XPath的网页解析
    - 13.1.2.1 XPath基础知识
    - 13.1.2.2 XPath综合案例
  - 13.1.3 BeautifulSoup
- 13.2 Scrapy框架
14 拓展-Python科学计算
- 14.1 思政园地VS章节导读
- 14.2 Python数据分析工具
  - 14.2.1 Pandas
  - 14.2.2 Numpy
  - 14.2.3 Matplotlib
- 14.3 自然语言处理
- 14.4 数据分析方法

Python数据分析工具

1 导读
2 教学视频
3 总体介绍

摘要：Pandas本身的数据分析功能不强，需要安装一些第三方打展库来增强它的能力能力，主要有Numpy，Scipy ，Matplotib，Pandas ，Scikit-Learn， Keras 和Gensim等下动这些库的安装和使用进行简单的介绍。

如果安装的是Anaconda发行版，那么它已经自带了以下库: Numpy、 Scipy 、Matplotlib, Pandas 和Scikt-Leam。

Numpy:提供数组支持，以及相应的高效的处理函数
Scipy:提供矩阵支持，以及矩阵相关的数值计算模块
Matplotib:强大的数据可视化工具、作图库
Pandas:强大、灵活的数据分析和探索工具
StatsModels:统计建模和计量经济学，包括描述统计、统计模型估计和推断
Scikit-Leam:支持回归、分类、聚类等的强大的机器学习库
Keras:深度学习库，用于建立神经网络以及深度学习模型
Gensim:用来做文本主题模型的库，文本挖掘可能用到

一、Numpy简介

Python并没有提供数组功能。虽然列表可以完成基本的数组功能，但它不是真正的数组，而且在数据量较大时，使用列表的速度就会慢得让人难以接受。为此，Numpy 提供了具正的数组功能，以及对数据进行快速处理的丽数。Numpy还是很多更高级的打展库的依赖库，后面介绍的Scipy、Matplotib、 Pandas 等库都依赖于它。值得强调的是，Numpy内置函数处理数据的速度是C语言级别的，因此在编写程序的时候，应当尽量使用它们内置的函数，避免出现效率瓶颈的现象(尤其是涉及循环的问题)。

在Windows中，Numpy安装跟普通的第三方库安装一样，可以通过pip安装: pip install numpy

二、SciPy简介

Scipy库是基于python生态的一款开源数值计算，科学与工程应用的开源软件，包括常用的NumPy, pandas,matplotlib等库。Scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。

scipy 是Python科学计算环境的核心。它被设计为利用 numpy 数组进行高效的运行。从这个角度来讲，scipy和numpy是密不可分的。SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。

三、Matplotlib简介

不论是数据挖掘还是数学建模，都免不了数据可视化的问题。对于Python来说Matplotlib是最著名的绘图库，它主要用于二维绘图，当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab相似但更为丰富的命令，让我们可以非常快捷地用Python可视化数据。

四、pandas简介

pandas是基于Numpy的一种工具，提供了解决数据分析任务而创建的，pandas容纳了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具，是作为数据分析不可或缺的工具。

五、StatsModels简介

Python着眼于数据的读取、处理和探索，而StatsModels则更加注重数据的统计分析建模分析，它使得Python有了R语言的感觉。StatsModels支持与Pandas进行数据交互，因此，它与Pandas结合，成为了Python下强大的数据挖掘工具。

statsmodels（http://www.statsmodels.org）是一个Python库，用于拟合多种统计模型，执行统计测试以及数据探索和可视化。statsmodels包含更多的“经典”频率学派统计方法，而贝叶斯方法和机器学习模型可在其他库中找到。

1.statsmodels中的线性模型有两个不同的主要接口：基于数组的和基于公式的。这些接口通过这些API模块导入来访问。

六、Scikit-Learn简介

Python着眼于数据的读取、处理和探索，而StatsModels则更加注重数据的统计分析建模分析，它使得Python有了R语言的感觉。StatsModels支持与Pandas进行数据交互，因此，它与Pandas结合，成为了Python下强大的数据挖

Pandas数据分析工具

如果安装的是Anaconda发行版，那么它已经自带了以下库: Numpy、 Scipy 、Matplotlib, Pandas 和Scikt-Leam。

一、Numpy简介

二、SciPy简介

图片预览