目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据分布特征描述

数据分析的目的在于通过适用适当的方法从数据中得到“简明”的信息,此处的“简明”是指能够通过较少的统计量来代表整体数据的特点和趋势,形成结论对数据加以详细综合、概括和总结的过程。在统计中,我们经常把数据服从某种分布作为前提假设,分布中携带了数据的本质特征和全部信息,此时我们关心这样两个问题。

1、能否通过少量的统计量来表征数据分布?

2、如果问题1的答案是肯定的,那么什么样的统计量能够作为该分布的“典型代表”?

就像我们了解宏观经济运行状况,通过GDP一个指标就能了解宏观经济的新增物品和服务。如果我们想了解一个人的身体状况(偏胖或偏瘦),可以通过身高和体重两个量来度量。比如,在一场篮球赛中,张三队和李四队对战了7场,比分数据分别是100:89,103:101,……,如果我们只想知道哪支队伍赢得了比赛,那么两队之间的比分具体是多少并不重要,只需要知道每场比赛谁的比分多,比分多的计1分,少的计0分,然后累加七场的比分就知道哪支队伍赢得了比赛。在这个例子中,我们遇到了很多数据,但是我们只对某个信息感兴趣,所以不需要所有的数据,只需要提取有用的信息即可。

一般来讲,描述数据分布特征可以从三个不同方面展开,即分布的集中趋势、离散程度和分布形态,集中趋势反映的是数据向某一中心值聚集的趋势,离散程度测度的是数据偏离中心值的程度,形态主要指的是数据分布的形状。

集中趋势度量

集中趋势指的是数据向其中心值靠拢的程度,它反映了数据中心的位置所在。集中趋势是数据分布特征的一种重要的度量方法,通过集中趋势的测度来了解数据、知晓的某种分布特征。度量集中趋势的量和数据的类型有关,针对不同类型的数据,我们需要运用不同的集中趋势去度量。需要注意的是,度量低层次数据的量值可以用来继续度量高层次数据(但度量结果有时并不好,有时可能需要损失信息量才能度量),但度量高层次数据的量值并不能适用于低层次数据。选用何种量来度量数据的分布特征需要考虑数据的类型和特点。


1.众数:“最多的"的宿主

众数是一组数据中出现次数最多的变量值比如某一班级里面女性30人,男性20人,此时,30就表示众数众数一般用来度量分类变量的分布特征,特别是那些有多个取值的分类变量,如民族、职业、国籍、地区、奥运奖牌(金银铜牌)等。

2、中位数和分位数:处在最中间位置的那一个

中位数就是把一组数据排序以后处于中间位置上的值。比如1,2,3,那么这3个数的中位数就是2对于顺序型数据常用中位数和分位数;中位数和分位数不受极端值的影响;主要用于顺序数据,也可用数值型数据,但不能用于分类数据.高层次的数据统计指标不能用于低层次的,所以中位数这个指标不能用于低层次的分类数据。

中位数的定义决定了中位数的一个性质:各变量值与中位数的离差绝对值之和最小,通俗来说就是各个数据到中位数的距离之和最小。

3、平均数

平均数是集中趋势的最常用测度值。对于数值型数据来讲,平均数是一个非常重要的指标,平均数也被称为均值。均值是最常用的平均数。像中位数一样,均值是一个变量值,它大体上位于观察值中部。二者的不同在于,均值是一个变量的值,它可以被看作是数据集的重心。如果我们根据观察值的大小把它们放在跷跷板上,则跷跷板会在均值处达到平衡。


4、众数、中位数还是平均数呢?

遇见一组数据的时候,在数据分析中我们应该使用哪种平均数?我们挑选的平均数是不是合适?当一个分布有很多的小观察值而仅有少数大的观察值时(例如家庭收人的分布),那么均值比中位数大。如果一个人想用尽可能大的值来概括这个分布的话,那么他会使用均值,尽管中位数比均值更合理一些。假设大标题这样写,“男人比女人挣的钱更多。”这句话的含义是什么呢?是任何一个男人比任何一个女人挣的钱都多吗?当然不是。这个标题可能是对这两组事件的平均值的比较中得出来的。如果是这样,那我们应将所用的方法说出来。也许是男人收人的中位数比女人高,也许是男人收人的均值比女人高。因此,群体之间有多大的区别依赖于用来比较它们的特别的统计方法。

众数、中位数和平均数是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。

(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

①如果数据的分布是对称的,众数、 中位数和平均数必定相等。

②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,因此三者之间的关系表现为: 平均数<中位数<众数。

③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则平均数>中位数>众数

(2)众数、中位数和平均数的特点与应用场合

①众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟--性,-组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

②中位数是一组数据中间位置.上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。

当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时可以考虑选择众数或中位数。


离散趋势度量

通常情况下仅仅用集中趋势来描述数据的分布特征是不够的。想象两个有相同平均值但又有区别的数据集。在一个数据集中,观察值互相很接近,而另一个数据集中,数据散布很开。没有一种平均值(众数、均值、中位数)可以表现出这种重要的不同。在这个例子中我们需要考虑数据的分散程度。这时就需要用到离散趋势来度量。离散趋势是指在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况。运用离散趋势可以来描述数据的波动。描述一组计量资料离散趋势的常用指标有极差、四分位数间距、方差、标准差标准误和变异系数等,其中方差和标准差最常用。

同集中趋势类似的,对于不同类型的数据,我们有不同的离散程度测度值。接下来我们具体看一下。

  1、异众比率:众数好不好

异众比率:指非众数组的频数占总频数的比例。

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

异众比率主要适合测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。

2、极差:套住两个极端值

考虑数据的两个极端值,一种简单的方法找出极差。极差的概念很简单:极差就是一组数据的最大值与最小值之差。

极差=最大的观察值-最小的观察值

极差是描述数据离散程度的最简单测度值,但是从它的计算方法我们可以看出,极差特别容易受极端值影响。

之前我们有提到过四分位数四分位数,上四分位数减去下四分位数的差我们称为四分位差,公式写出来就是

四分位差=上四分位数-下四分位数

方差和标准差:重要的偏差

标准差是到均值的一种平均距离,S来表示。它主要用来说明一个变量的观察值之间如何的不同。标准差说明了观察值与均值相差多远。离均值越远,彼此之间离得也远,则标准差越大。例如,如果我们知道脉搏跳动次数的标准差是7.3,则我们知道一个典型的观察值距离均值在7.3左右,不是大些就是小些。标准差的最小值是0,这时数据集的各个观察值一样大。但没有变化的数据是极少的,量的数据服从具有某种分散度的分布。标准差的最大值没有限制。

分布形态度量(偏度和峰度)


集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形态:形状是否对称、偏斜的程度以及分布的扁平程度等。偏度和峰度就是对分布形状的测度。

1、偏度:分布是否对称

偏度是描述某变量取值分布对称性的统计量.如果分布的频数曲线(光滑频数多边形)右边的尾部比左边的长,则称分布是向右偏的或有正偏度反之,则称分布是向左偏的或负偏度。

2、峰度:衡量尖峰厚尾的量

峰度是描述变量取值分布形态陡缓程度的统计量。峰度是分布陡峭程度的反映,通常是相对干正态分布而言有一个相对较高的顶峰的分布。正态分布,没有较高和较平坦的顶峰,称为常峰态的。