目录

  • 第一章 程序设计基本方法
    • ● 1.1 计算机的概念
    • ● 1.2 程序设计语言
    • ● 1.3 程序的基本编写方法
    • ● 1.4 Python语言概述
    • ● 1.5 Python语言开发环境
    • ● 1.6 环境安装
  • 第二章 Python程序实例解析
    • ● Hello, World!
    • ● 基本编码规则
    • ● 温度转换
  • 第三章 基本数据类型
    • ● 数字
    • ● 变量、表达式和赋值语句
    • ● 关系表达式与逻辑运算
    • ● 字符串
    • ● 格式化方法
    • ● 数据类型间的转换
  • 实验1 Python快速入门与基础数据类型
    • ● 熟悉JupyterLab的基本操作
    • ● Hello, World!
    • ● 基本数据类型
  • 实验2 字符串与格式化
    • ● 字符串的基本操作
    • ● 格式化输出
  • 第四章 高级数据结构
    • ● 列表
    • ● 字典
    • ● 元组
    • ● 集合
    • ● 解构赋值
  • 第五章 程序控制结构与函数
    • ● 程序控制结构
    • ● 分支结构(if 条件语句)
    • ● 循环结构(for、while语句)
    • ● 函数
    • ● 列表、字典与集合推导式
  • 实验3
    • ● 判断分支结构
    • ● 循环结构
    • ● 函数
  • 第六章 面向对象编程
    • ● 对象
    • ● 类
    • ● 多态
    • ● 模块、包和软件包
  • 第八章 数据可视化基础:数据图绘制方法
    • ● 使用pyplot绘制数据图
    • ● 线图
    • ● 散点图
    • ● 柱状图
    • ● 饼图
    • ● 直方图
    • ● 子图
  • 第七章 向量计算:NumPy科学计算包
    • ● 向量水果店
    • ● NumPy数组对象
    • ● 数组访问方法
    • ● 聚合函数
    • ● 线性代数计算
  • 第九章 Pandas数据分析包
    • ● Pandas简介
    • ● 数据框与序列
    • ● 数据框的数据访问方法
    • ● 分组统计与排序排名
  • 实验4
    • ● 数组
    • ● 绘图
  • 习题课
    • ● 题型范例
  • 实验报告
    • ● 上交实验报告
Pandas简介

Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。Pandas 基于 NumPy 开发,可以与其它第三方科学计算支持库完美集成。

Pandas 提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 适用于处理以下类型的数据:

  • 与 SQL 或 Excel 表类似的,含异构列的表格数据;

  • 有序和无序(非固定频率)的时间序列数据;

  • 带行列标签的矩阵数据,包括同构或异构型数据;

  • 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

Pandas 就像一把万能瑞士军刀,下面仅列出了它的部分优势 :

  • 处理浮点与非浮点数据里的缺失数据,表示为 NaN;

  • 大小可变:插入或删除 DataFrame 等多维对象的列;

  • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;

  • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;

  • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;

  • 基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;

  • 直观地合并(merge)、**连接(join)**数据集;

  • 灵活地重塑(reshape)、**透视(pivot)**数据集;

  • 轴支持结构化标签:一个刻度支持多个标签;

  • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;

  • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

这些功能主要是为了解决其它编程语言、科研环境的痛点。处理数据一般分为几个阶段:数据整理与清洗、数据分析与建模、数据可视化与制表,Pandas 是处理数据的理想工具。

我们的TGBA安装环境里,已经安装了Pandas包,因此,直接导入即可。由于Pandas是基于NumPy的,所以需要提前导入NumPy。

import numpy as np

import pandas as pd

Pandas包约定俗成的适用pd作为别名。

Pandas说明可以看官方文档,pandas - Python Data Analysis Library (pydata.org)

也可以看Pandas中文站:Pandas (pypandas.cn)