目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
什么是概率

为了能更顺利表达一些统计概念、叙述统计方法,我们需要引入一些概率论的相关知识。如果数学公式对你的学习造成了困扰,可以试着了解相关概念的直觉意义,在后续章节的学习中遇到本章定理、性质时知道在哪里看到过,对照公式进行检查即可。

概率可以简单理解成可能性。比如,生孩子是男孩和女孩的可能性是一样的(即50%)。你出门打车,假设你的周围只有1量出租车,但同时有10人在等车,你能坐上车的可能性就是1/10(假设所有人打到车的机会是相同的),如果是高峰期有100人,出租车还是只有1辆,那么你坐上车的可能性就只有1/100。

一个家庭中的四个孩子都是男孩,这种可能性有多大?明天上午某地区是否会下雨?一年里某地区发生地震的次数大概有几次?公交车在正常发车时段而张三同学等待超过1个小时还没等到?回答上述问题都和概率有关,概率是与某事件发生的机会、可能性,或者确定程度相关的一个词。

为了能够对某一事件发生的概率(可能性)进行对比,将概率用0到1之间的实数来表示,数值越大表示事件发生的可能性越大。某一事件概率为1表示事件必然会发生,称为必然事件,比如太阳东升西落、水在零度以下结冰等等。若某一事件概率为0表示事件必然不会发生,称为不可能事件,比如张三在同一时间出现在不同地点、一场对抗比赛出现两个胜利者(如果平手不算胜利的话)等等。

随机事件

生活中有一些事件时确定性的,比如前面所说的必然事件和不可能事件,还有一些事件是随机的,即这种事件在发生前是不知道会出现何种结果。以抛硬币为例,在抛掷之前我们并不能确切知道会出现正面还是反面。同样的例子比如某项投资是否盈利、能否被心仪的学校录取等等。

在引入随机事件这一概念前,先了解一下什么叫试验和事件。

在同一组条件下,对某事物或现象所进行的观察或实验叫做试验。在统计学中,试验有以下特点:

(1)可以在相同条件下重复进行;

(2)每次试验的可能结果不止一个,但试验的所有可能结果在试验之前是确切知道的;

(3)在试验结束之前,不能确定该次试验的确切结果。

在相同条件下,试验的某一个结果称为事件。

(1)随机事件(random event)。在相同条件下,每次试验可能出现也可能不出现的事件,也简称为事件。

(2)不可能事件(impossible event)。在相同条件下,每次试验一定不出现的事件。

(3)必然事件(certain event)。在相同条件下,每次试验一定出现的事件。


古典概率

对于任何事件,都可以测量它的概率。事件A的概率是对事件A在试验中出现的可能性大小的一种度量,记事件A出现可能性大小的数值为P(A),P(A)称为事件A概率(probability)。

1.概率的古典定义

最早寻找概率的方法来自于扑克牌和骰子游戏。假设一个骰子有6个面,且投掷时,每个面出现的可能性相同,那么每个面出现的概率是1/6。如果一副牌有52张,有13张红桃,那么随机抽出一张牌,是红桃的概率是13/52,即1/4。

这种考虑概率的方法表明,如果某一随机试验的结果是有限的,而且每个结果出现的可能性相等,则某一事A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值,记为m/n。

2.概率的统计定义

即在相同条件下随机试验n次,某事件出现m(m<=n),则比值m/n称为事件A发生的频率。随着m的增大,该频率围绕某一常数p上下波动且趋于稳定,这个频率的稳定值为该事件的概率,记为p。