-
1 导读
-
2 教学视频
-
3 总体介绍
Pandas数据分析工具
摘要:Pandas本身的数据分析功能不强,需要安装一些第三方打展库来增强它的能力能力,主要有Numpy,Scipy ,Matplotib,Pandas ,Scikit-Learn, Keras 和Gensim等下动这些库的安装和使用进行简单的介绍。
如果安装的是Anaconda发行版,那么它已经自带了以下库: Numpy、 Scipy 、Matplotlib, Pandas 和Scikt-Leam。
Numpy:提供数组支持,以及相应的高效的处理函数
Scipy:提供矩阵支持,以及矩阵相关的数值计算模块
Matplotib:强大的数据可视化工具、作图库
Pandas:强大、灵活的数据分析和探索工具
StatsModels:统计建模和计量经济学,包括描述统计、统计模型估计和推断
Scikit-Leam:支持回归、分类、聚类等的强大的机器学习库
Keras:深度学习库,用于建立神经网络以及深度学习模型
Gensim:用来做文本主题模型的库,文本挖掘可能用到
一、Numpy简介
Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。为此,Numpy 提供了具正的数组功能,以及对数据进行快速处理的丽数。Numpy还是很多更高级的打展库的依赖库,后面介绍的Scipy、Matplotib、 Pandas 等库都依赖于它。值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。
在Windows中,Numpy安装跟普通的第三方库安装一样,可以通过pip安装: pip install numpy


二、SciPy简介
Scipy库是基于python生态的一款开源数值计算,科学与工程应用的开源软件,包括常用的NumPy, pandas,matplotlib等库。Scipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题。
scipy 是Python科学计算环境的核心。 它被设计为利用 numpy 数组进行高效的运行。从这个角度来讲,scipy和numpy是密不可分的。SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。

三、Matplotlib简介
不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据。

四、pandas简介
pandas是基于Numpy的一种工具,提供了解决数据分析任务而创建的,pandas容纳了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,是作为数据分析不可或缺的工具。

五、StatsModels简介
Python着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计分析建模分析,它使得Python有了R语言的感觉。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘工具。
statsmodels(http://www.statsmodels.org)是一个Python库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化。statsmodels包含更多的“经典”频率学派统计方法,而贝叶斯方法和机器学习模型可在其他库中找到。
1.statsmodels中的线性模型有两个不同的主要接口:基于数组的和基于公式的。这些接口通过这些API模块导入来访问。
六、Scikit-Learn简介
Python着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计分析建模分析,它使得Python有了R语言的感觉。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖

