目录

  • 1 R语言与统计分析概述
    • 1.1 配置R环境与了解R
    • 1.2 统计分析方法概述
    • 1.3 本章小结
    • 1.4 本章习题
    • 1.5 章节测验
  • 2 R语言中的数据管理及预处理
    • 2.1 基本数据类型
    • 2.2 数据结构
    • 2.3 数据的读入和写出
    • 2.4 数据集管理及预处理
    • 2.5 数据集的进阶操作和dplyr包的介绍
    • 2.6 本章小结
    • 2.7 本章习题
  • 3 R的基本统计分析
    • 3.1 基本描述统计量
    • 3.2 汇总分析
    • 3.3 本章小结
    • 3.4 本章习题
  • 4 数据描述与可视化
    • 4.1 统计表格
    • 4.2 数据可视化基础
    • 4.3 数据可视化进阶
    • 4.4 本章小结
    • 4.5 本章习题
  • 5 参数估计与假设检验
    • 5.1 总体、样本和样本量
    • 5.2 参数估计
    • 5.3 假设检验
    • 5.4 单因素方差分析
    • 5.5 本章小结
    • 5.6 本章习题
  • 6 线性回归
    • 6.1 理论
    • 6.2 实例分析
  • 7 逻辑回归
    • 7.1 理论
    • 7.2 实例分析
  • 8 R的聚类分析
    • 8.1 理论
    • 8.2 实例分析
  • 9 R的线性判别分析
  • 10 R的降维分析
  • 11 R的因子分析
本章小结

本章介绍了基本的描述统计量。其中,描述数据的平均情况可以用均值,当数据分布不均匀时可以使用中位数(或其他分位数)来刻画数据形态。如需刻画数据分布的离散程度,可以使用方差、标准差、最大最小值。描述两个变量之间的相关关系时,可使用协方差或相关系数。最后,当描述数据的分布形态时,偏度和峰度也是常用的描述统计量。掌握描述统计量有助于加深对数据的了解。

进一步学习了多元变量之间的描述统计,包括交叉分组下的频数统计(交叉列联表),该表有助于发现两个离散变量联合分布的规律,和分组统计汇总数值型变量的描述统计量。