目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据展示

品质型数据展示

分类数据的图示

1.条形图

条形图用等宽直条的长短或高度来表示数据多少的图形。主要用于反映分类数据频数的分布。绘制时,各类别可以放在纵轴称为条形图,也可以放在横轴称为柱形图。。此外,条形图分为单式和复式两种。单式适用于只有一组观察资料。复式适用于有若干组观察资料。

条形图是用条形的长度去表示各类别频数的多少的,且其各直条等宽,等间距的分开排列,间距宽度和直条相等或为其一半。复式条形图在同一观察项目的各组之间无间距。

2.帕累托图

帕累托图按各类别数据出现的频数多少排序后绘制的柱形图。主要用于展示分类数据的分布。通过对条形图的排序,能够清楚的看出各类数据出现的多少。

3.饼图

饼图也称圆形图,是用圆内各扇形面积所占的百分比来表示各部分所占的构成比。圆里面的扇形就代表各部分,各扇形的圆心角和各部分的大小成比例。饼图对于研究结构性问题十分有用。

4.环形图

简单的饼图只显示一个样本在各部分中所占的比例。比如,把4个地区的生产总值划分成4个部分,那么就要比较4个地区的生产总值构成,需要绘制4个饼图,这种做法并不便于比较。能否用一个图形比较出4个地区的生产总值构成呢?把饼图叠在一起,去除中间的部分就可以了,这便是环形图。

环形图中间有一个空洞,样本或总体中的每一部分数据,用环中的一段来表示。环形图与饼图类似,但又有所不同,饼图只能显示一个总体各部分所占的比例,但环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。环形图用于结构比较研究,用于展示分类和顺序数据。


顺序数据的图示

顺序数据的图示

累积频数分布图

根据累计频数或者累计频率可以绘制累计频数分布或频率图。

数值型数据展示

1.分组数据:直方图

描述分组数据最常用的图示法是直方图。

直方图是以各矩形的面积(即宽度和高度)来代表各组频数的多少。在绘制直方图时,在直角坐标中,用横轴来表示数据的分组,用纵轴来表示频数或者频率,这样,各组与相应的频数就形成了一个矩形,即直方图。直方图的各矩形间不留空隙,通常是连续排列,且直方图的矩形的高度表示每一组的频率或频数,宽度表示各组的组距,即高度与宽度都有意义。

2.未分组数据:茎叶图和箱线图

(1)茎叶图

直方图并不是用图形展示分布的唯一选择,当数据不是很多的时候,绘制茎叶图比较快,并且呈现能够显示出更多详细的信息

茎叶图是反映原始数据分布的图形。它是由茎和叶两分组成其图形是有数字组成的。以该组数据的高位数的值为树茎,低位数的值为树叶;树叶上只保留最后一位数字。例如,134分成13|4,65分成6|5,25.62分成256|2(单位:0.01),等等。前部分为树茎,后部分为树叶。

茎叶图类似于横置的直方图,但是又有区别。区别在于直方图可以观察一组数据的分布状况,但并没有给出具体的数值且适用于大批量数据。而茎叶图既能给出数据的分布状况,又能给出每一个原始数据。保留了原始数据的信息,但适用于小批量数据,且茎叶图对重复出现的数据要重复记录,不能遗漏。

(2)箱线图

箱线图是利用数据中的五个统计量:最大值、最小值、中位数、两个四分位数来描述数据的一种方法,它也可以粗略的看出数据是否有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。箱线图的绘制方法是:首先找出一组数据的五个特征值,即最大值、最小值、中位数和两个四分位数;然后连接两个四分位数画出箱子,再将两个极值点与箱子相连,中位数在箱子中间。


3.时间序列数据:线图

许多变量都是隔一段时间测量一次的。比如测量成长中儿童的身高,或者记录每月的平均收入。在这类例子当中我们主要测量变量如何随着时间变动。线图主要用于反映现象随时间变化的特征。

4.多变量数据的图示

当有两个或两个以上的变量时,可以采用散点图、气泡图、雷达图等。

(1)散点图

散点图是用来展示两个变量之间的关系,是在二维坐标系中实现的。在绘制散点图时,用横轴代表自变量,纵轴代表因变量,每组数据在坐标系中用一个点表示,多组数据在坐标系中形成的多个点称为散点,由坐标及其散点形成的二维数据图称为散点图。

(2)气泡图

气泡图是用于表示三个数据之间的关系。绘制气泡图时,应将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用于气泡的大小来表示。

(3) 雷达图

雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式,显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图,不规则多边形。它相当于平行坐标图,轴径向排列。

雷达图在显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度。