2.5.4 概率论的基本概念


概率论基本概念

原文出处:

https://vonng.com/blog/probability-basic/ 


1. 集合论


样本空间和样本点是概率论中无定义的基本概念,如同几何中的点和直线的概念一般。


定义:事件

事件:事件是样本点的集合

  • A=0表示事件A不含任何样本点,即A是不可能事件。

A=0是一个代数表达式而不是算术表达式,0在这里是一个符号。

  • 样本空间中一切不属于事件A的点所构成的事件称为A的补事件。或称非事件。并以AC记之,SC=0

  • 事件A、B、C的交,用ABC表示,并用ABC表示事件的并

  • AB 称为A蕴涵B,意味着A的每一个点都在B中。

2 概率论基础

这里采用公理化的方法来定义概率。至于如何解释概率,例如“事件的出现频率”(频率学派),或者是“对事件出现的信念”(贝叶斯学派),这里我们并不关心。

2.1 公理化基础

对于样本空间S的每一个事件A,我们希望给A赋一个0到1之间的数值P(A),称之为A的概率。

定义:Σ代数/BOREL域

S的一族子集如果满足下列三个性质,就称为一个σ代数或一个Borel域,记作B

  • B

  • ABACB

  • A1,A2,Bi=1AiB

满足这样三条性质(空集存在,对补运算与并运算封闭)的σ代数有很多,这里讨论的是包含S中全体开集的最小σ代数。对于可数样本空间,通常是B={SS}。对于不可数的样本空间,例如S=(,)为实数轴,则可以取B为包含所有形如[a,b],(a,b],[a,b),(a,b)的集合,其中a,bR

定义:概率函数

已知样本空间S和σ代数B,定义在B上且满足下列条件的函数P称为一个概率函数(probability fucntion)

  • AB,P(A)0

  • P(S)=1

  • A1,A2,B两两不相交,则P(i=1Ai)=i=1P(Ai)

概率非负性,概率归一化,概率可数可加。这三条性质称为概率公理,或Kolmogorov公理。只要满足这三条公理,函数P就可以称为一个概率函数。

(PS:统计学家通常不接受可数可加公理,只接受其推论:有限可加性公理P(AB)=P(A)+P(B)

2.2 概率演算

定理:设P是一个概率函数,A,BB 则

  • P()=0

  • P(A)1

  • P(AC)=1P(A)

  • P(BAC)=P(B)P(AB)

  • P(AB)=P(A)+P(B)P(AB)

  • ABP(A)P(B)

  • P(AB)P(A)+P(B)1 ,Bonferroni不等式,用单个事件概率估算并发概率

  • 对于任意划分C1,C2,,都有P(A)=i=1ACi

  • 对于任意集合A1,A2,都有P(i=1ACi)i=1P(ACi),Boole不等式。

2.3 计数

计数涉及到很多组合分析的知识,这些分析都基于这样一条定理:

定理:计数基本定理

如果一项工作由k个相互独立的子任务组成,其中第i个任务可以使用ni种方式完成,则正向工作可以用n1×n2××nk种方式组成。

该定理的证明可以由笛卡尔积运算的定义与性质得出。

计数的两个基本问题包括:

  • 样本是否有序?

  • 抽样是否放回?

定义:总体/子总体/有序样本
  • 总体:我们用大小为n的总体表示一个由n个元素构成的集合。

因为总体是集合,所以总体是无序的,总体相同当且仅当两个总体含有相同的元素。

  • 子总体:从大小为n的总体中选取r个元素,就构成了一个大小为r的子总体。

  • 对子总体中的元素进行编号,可以得到大小为r的有序样本。总共有n!种。

从N个对象中选取R个的全体可能方式的数目

无放回抽样有放回抽样
有序样本n!(nr)!=(nr)Arrnr
无序子总体(nr)=n!(nr)!r!(n+r1r)
  • 有序有放回最简单,每次n种可能,进行r次抽样,所以是nr

  • 有序无放回从n个总体中选择出大小为r的有序样本,所以(nr)Arr=(nr)r!=n!(nr)!

  • 无序无放回和有序无放回类似,只不过抽出的是一个大小为r的子总体而不是有序样本。

  • 有放回的无序抽样最复杂。可以理解为在n个元素上放入r个标记。把元素的边界当成一个元素考虑,那么n个盒子共有n+1个边界,共有r个标记。现在除去两侧的边界,一共有n-1+r个空位。从这些空位中选出r个来放置标记。所以是(n1+rr)

常见组合问题
  • 大小为n的总体,有放回抽样出大小为r的有序样本:

nr

  • 大小为n的总体,无放回抽样出大小为r的有序样本:

(n)r=n(n1)(nr+1)=n!(nr)!=CnrAnr=(nr)r!

  • 大小为n的总体,有放回抽样出大小为r的子总体:

(nr)=(n)rr!=Cnr=n!(nr)!r!

  • 大小为n的总体,无放回抽样出大小为r的子总体:

(n1+rr)

  • 大小为n的总体划分为k组,每组个数为r1,,rk

n!r1!r2!rk!

  • 大小为n的总体里有m个阳性样本,无放回抽样出大小为r的子总体,其中出现k个阳性样本的概率:

(mk)(nmrk)(nr)

3. 条件概率与独立性

定义:条件概率

设A,B为S重的时间,且P(B)>0 ,则在事件B发生的条件下事件A发生的条件概率记作P(A|B)表示为:

P(A|B)=P(AB)P(B)

直觉上很好理解,AB共同发生的概率等于B发生的概率 乘以B发生条件下A发生的概率:P(AB)=P(A|B)P(B)

自然而然,A在B条件下的发生概率为:AB共同发生概率 除以 B的发生概率。这里事件B的样本点构成了新的样本空间,而P(A|B)也一定满足概率三公理,构成新样本空间上的一个概率函数。

定理:BAYES公式

A1,A2,为样本空间的一个划分,B为任意集合,则对i=1,2,,有:

P(Ai|B)=P(B|Ai)P(Ai)j=1P(B|Aj)P(Aj)

定义:统计独立

称事件A,B统计独立(statistically independent),如果P(AB)=P(A)P(B)

称一系列事件A1,,An相互独立(mutually independent),如果对于任意Ai1,,Aik都有:

P(j=1kAij)=j=1kP(Aij)

4. 随机变量

许多试验中存在一个具有概括作用的变量,它处理起来比原概率模型要简单的多。

例如:50个人表决的结果,样本空间为250。其实我们感兴趣的只不过是有多少人赞成,那么定义变量X=赞成个数,样本空间就变成了整数集合:{s|0s50sZ}

定义:随机变量

从样本空间映射到实数的函数称为随机变量(random variable)

定义了随机变量,也就定义了一个新的样本空间(随机变量的值域)。但更重要的是,我们要通过原来样本空间上定义的概率函数,定义出这个随机变量的概率函数:诱导概率函数PX

假设有样本空间S={s1,,sn}以及概率函数P,定义随机变量X的值域为:X={x1,,xn}。我们可以如下定义X上的概率函数PX:观测到事件X=xi发生当且仅当随机试验的结果sjS满足X(sj)=xi,即:

Px(X=xi)=P({sjS:X(Sj)=xi})

因为PX是通过已知的概率函数P得到的,所以称之为X上的诱导概率函数,易证该函数也满足概率公理。

对于连续的样本空间S,情况类似:

Px(XA)=P({sjS:X(Sj)A})

5. 分布函数

对于任意随机变量,我们都可以构造一个函数:累积分布函数(cumulative distribution function),简称CDF。

定义:累积分布函数

随机变量X的累积分布函数,记作FX(x),表示:FX(x)=PX(Xx)

X的分布为FX,可以简记作:XFX(x),其中“~”读作分布如。

例:掷硬币

同时投掷三枚硬币,令X=正面朝上的硬币数,则X的累积分布函数是一个阶梯函数:

FX(x)={0<x<01/80x<11/21x<27/82x<313x<

由累积分布函数的定义可知,FX(x)右连续的。

性质:累积分布函数

函数F(x)是一个累积分布函数,当且仅当它同时满足下列三个条件。

  • limxF(x)=0 且 limxF(x)=1

  • F(x)x的单调递增函数

  • F(x)右连续:x0(limxx0+F(x)=F(x0))

定义:离散/连续随机变量

设X为一随机变量,如果FX(x)是x的连续函数,则称X是连续的(continuous);如果FX(x)是x的阶梯函数,则称X是离散(discrete)的。

累积分布函数FX能够完全确定随机变量X的概率分布。所以引出了随机变量同分布的概念。

定义:随机变量同分布

称随机变量X和Y同分布(identically distributed),如果对任意集合AB1,都有P(XA)=P(YA)

注意两个同分布的随机变量并不表示 X=Y,比如令XY分别为连掷三次硬币正反面朝上的次数。

定理:同分布随机变量的性质

随机变量X与Y同分布,当且仅当 x(FX(x)=FY(x))

6. 概率密度函数与概率质量函数

与随机变量X,累积分布函数FX相关的还有一个函数:若X是连续随机变量,该函数称作概率密度函数;若X是离散随机变量,该函数称作概率质量函数。它们关注的都是随机变量的“点概率”。

定义:概率质量函数(PROBABILITY MASS FUNCTION) 简称PMF

离散随机变量X的概率质量函数定义为:

x(fX(x)=PX(X=x))

概率质量函数的集合解释:PX(X=x),i.efX(x)等于累积分布函数在x处的跃变高度。

推广到连续变量的情景,则有:

P(Xx)=FX(x)=xfX(t)dt

定义:概率密度函数(PROBABILITY DENSITY FUNCTION),PDF

连续随机变量X的概率密度函数,是满足下式的函数:

FX(x)=xfX(t)dt,x

定理:PDF/PMF的性质

函数fX(x)是随机变量X的概率密度函数(或概率质量函数),当且仅当它同时满足以下两个条件

  • x(fX(x)0)

  • xfX(x)=1 (概率质量函数)或 fX(x)dx=1 (概率密度函数)