目录

  • 1 数据挖掘概述
    • 1.1 概述与工具
  • 2 Python基础
    • 2.1 python基础知识及操作符
    • 2.2 输入输出
    • 2.3 流程控制
      • 2.3.1 选择结构
      • 2.3.2 循环结构
    • 2.4 数据类型
      • 2.4.1 数字型,列表
      • 2.4.2 字符串
      • 2.4.3 元组,集合
      • 2.4.4 字典
      • 2.4.5 词频统计
    • 2.5 作业
  • 3 Numpy数值计算基础
    • 3.1 掌握numpy数组对象
    • 3.2 矩阵对象和ufunc函数
    • 3.3 利用numpy进行统计分析
  • 4 Matplotlib数据可视化基础
    • 4.1 掌握绘图基础语法
    • 4.2 分析特征间的关系
    • 4.3 分析特征内部数据分布
  • 5 pandas统计分析基础
    • 5.1 读写不同数据源的数据
    • 5.2 掌握DataFrame的常用操作
    • 5.3 转换与处理时间序列数据
    • 5.4 使用分组聚合进行组内计算
    • 5.5 创建透视表与交叉表
  • 6 使用pandas进行数据预处理
    • 6.1 合并数据
    • 6.2 数据清洗
    • 6.3 标准化数据,转换数据
  • 7 使用sklearn构建模型
    • 7.1 使用sklearn转换器处理数据
    • 7.2 构建并评价聚类模型
    • 7.3 构建并评价分类模型
    • 7.4 构建并评价回归模型
    • 7.5 作业
  • 8 航空公司客户价值分析
    • 8.1 客户数据预处理
    • 8.2 构建模型,结果分析
  • 9 竞赛相关
    • 9.1 题目
    • 9.2 神经网络
    • 9.3 基于文本内容的垃圾短信识别
合并数据

一:堆叠合并数据

即将两个表在拼接在一起,可以使用concat函数和append完成

1.concat函数

pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

2.append函数

append方法也可以用于纵向合并两张表。但是append方法实现纵向表堆叠有一个前提条件,那就是两张表的列名需要完全一致。

pandas.DataFrame.append(self, other, ignore_index=False, verify_integrity=False)。

二:主键合并数据

主键合并,即通过一个或多个键将两个数据集的行连接起来,类似于SQL中的JOIN。针对同一个主键存在两张包含不同字段的表,将其根据某几个字段一一对应拼接起来,结果集列数为两个元数据的列数和减去连接键的数量。

  1. merge函数

    pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)

  2. join函数

    join方法也可以实现部分主键合并的功能,但是join方法使用时,两个主键的名字必须相同。

    pandas.DataFrame.join(self, other, on=None, how='left', lsuffix='', rsuffix='', sort=False)


三:重叠合并数据

pandas.DataFrame.combine_first(other)