原文出处:
https://vonng.com/blog/probability-basic/
1. 集合论
样本空间和样本点是概率论中无定义的基本概念,如同几何中的点和直线的概念一般。
定义:事件
事件:事件是样本点的集合。
A=0是一个代数表达式而不是算术表达式,0在这里是一个符号。
样本空间中一切不属于事件A的点所构成的事件称为A的补事件。或称非事件。并以AC记之,SC=0
事件A、B、C的交,用A∩B∩C表示,并用A∪B∪C表示事件的并
A⊂B 称为A蕴涵B,意味着A的每一个点都在B中。
2 概率论基础
这里采用公理化的方法来定义概率。至于如何解释概率,例如“事件的出现频率”(频率学派),或者是“对事件出现的信念”(贝叶斯学派),这里我们并不关心。
2.1 公理化基础
对于样本空间S的每一个事件A,我们希望给A赋一个0到1之间的数值P(A),称之为A的概率。
定义:Σ代数/BOREL域
S的一族子集如果满足下列三个性质,就称为一个σ代数或一个Borel域,记作B:
∅∈B
A∈B⇒AC∈B
A1,A2,⋯∈B⇒∞⋃i=1Ai∈B
满足这样三条性质(空集存在,对补运算与并运算封闭)的σ代数有很多,这里讨论的是包含S中全体开集的最小σ代数。对于可数样本空间,通常是B={S的全体子集,包括S本身}。对于不可数的样本空间,例如S=(−∞,∞)为实数轴,则可以取B为包含所有形如[a,b],(a,b],[a,b),(a,b)的集合,其中a,b∈R。
定义:概率函数
已知样本空间S和σ代数B,定义在B上且满足下列条件的函数P称为一个概率函数(probability fucntion)
∀A∈B,P(A)≥0
P(S)=1
若A1,A2,⋯∈B两两不相交,则P(∞⋃i=1Ai)=∞∑i=1P(Ai)
概率非负性,概率归一化,概率可数可加。这三条性质称为概率公理,或Kolmogorov公理。只要满足这三条公理,函数P就可以称为一个概率函数。
(PS:统计学家通常不接受可数可加公理,只接受其推论:有限可加性公理P(A∪B)=P(A)+P(B))
2.2 概率演算
定理:设P是一个概率函数,A,B∈B 则
P(∅)=0
P(A)≤1
P(AC)=1−P(A)
P(B∩AC)=P(B)−P(A∩B)
P(A∪B)=P(A)+P(B)−P(A∩B)
A⊂B⇒P(A)≤P(B)
P(A∩B)≥P(A)+P(B)−1 ,Bonferroni不等式,用单个事件概率估算并发概率
对于任意划分C1,C2,⋯,都有P(A)=∞∑i=1A∩Ci
对于任意集合A1,A2,⋯都有P(∞⋃i=1A∩Ci)≤∞∑i=1P(A∩Ci),Boole不等式。
2.3 计数
计数涉及到很多组合分析的知识,这些分析都基于这样一条定理:
定理:计数基本定理
如果一项工作由k个相互独立的子任务组成,其中第i个任务可以使用ni种方式完成,则正向工作可以用n1×n2×⋯×nk种方式组成。
该定理的证明可以由笛卡尔积运算的定义与性质得出。
计数的两个基本问题包括:
定义:总体/子总体/有序样本
因为总体是集合,所以总体是无序的,总体相同当且仅当两个总体含有相同的元素。
从N个对象中选取R个的全体可能方式的数目
| 无放回抽样 | 有放回抽样 |
|---|
| 有序样本 | n!(n−r)!=(nr)Arr | nr |
| 无序子总体 | (nr)=n!(n−r)!r! | (n+r−1r) |
有序有放回最简单,每次n种可能,进行r次抽样,所以是nr
有序无放回从n个总体中选择出大小为r的有序样本,所以(nr)Arr=(nr)r!=n!(n−r)!
无序无放回和有序无放回类似,只不过抽出的是一个大小为r的子总体而不是有序样本。
有放回的无序抽样最复杂。可以理解为在n个元素上放入r个标记。把元素的边界当成一个元素考虑,那么n个盒子共有n+1个边界,共有r个标记。现在除去两侧的边界,一共有n-1+r个空位。从这些空位中选出r个来放置标记。所以是(n−1+rr)
常见组合问题
nr
(n)r=n(n−1)⋯(n−r+1)=n!(n−r)!=CrnArn=(nr)r!
(nr)=(n)rr!=Crn=n!(n−r)!r!
(n−1+rr)
大小为n的总体划分为k组,每组个数为r1,⋯,rk:
n!r1!r2!⋯rk!
(mk)(n−mr−k)(nr)
3. 条件概率与独立性
定义:条件概率
设A,B为S重的时间,且P(B)>0 ,则在事件B发生的条件下事件A发生的条件概率记作P(A|B)表示为:
P(A|B)=P(A∩B)P(B)
直觉上很好理解,AB共同发生的概率等于B发生的概率 乘以B发生条件下A发生的概率:P(AB)=P(A|B)P(B)
自然而然,A在B条件下的发生概率为:AB共同发生概率 除以 B的发生概率。这里事件B的样本点构成了新的样本空间,而P(A|B)也一定满足概率三公理,构成新样本空间上的一个概率函数。
定理:BAYES公式
设A1,A2,⋯为样本空间的一个划分,B为任意集合,则对i=1,2,⋯,有:
P(Ai|B)=P(B|Ai)P(Ai)∑∞j=1P(B|Aj)P(Aj)
定义:统计独立
称事件A,B统计独立(statistically independent),如果P(A∩B)=P(A)P(B)
称一系列事件A1,⋯,An相互独立(mutually independent),如果对于任意Ai1,⋯,Aik都有:
P(k⋂j=1Aij)=k∏j=1P(Aij)
4. 随机变量
许多试验中存在一个具有概括作用的变量,它处理起来比原概率模型要简单的多。
例如:50个人表决的结果,样本空间为250。其实我们感兴趣的只不过是有多少人赞成,那么定义变量X=赞成个数,样本空间就变成了整数集合:{s|0≤s≤50∧s∈Z}
定义:随机变量
从样本空间映射到实数的函数称为随机变量(random variable)
定义了随机变量,也就定义了一个新的样本空间(随机变量的值域)。但更重要的是,我们要通过原来样本空间上定义的概率函数,定义出这个随机变量的概率函数:诱导概率函数PX。
假设有样本空间S={s1,⋯,sn}以及概率函数P,定义随机变量X的值域为:X={x1,⋯,xn}。我们可以如下定义X上的概率函数PX:观测到事件X=xi发生当且仅当随机试验的结果sj∈S满足X(sj)=xi,即:
Px(X=xi)=P({sj∈S:X(Sj)=xi})
因为PX是通过已知的概率函数P得到的,所以称之为X上的诱导概率函数,易证该函数也满足概率公理。
对于连续的样本空间S,情况类似:
Px(X∈A)=P({sj∈S:X(Sj)∈A})
5. 分布函数
对于任意随机变量,我们都可以构造一个函数:累积分布函数(cumulative distribution function),简称CDF。
定义:累积分布函数
随机变量X的累积分布函数,记作FX(x),表示:FX(x)=PX(X≤x)
X的分布为FX,可以简记作:X∼FX(x),其中“~”读作分布如。
例:掷硬币
同时投掷三枚硬币,令X=正面朝上的硬币数,则X的累积分布函数是一个阶梯函数:
FX(x)=⎧⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎩0−∞<x<01/80≤x<11/21≤x<27/82≤x<313≤x<∞
由累积分布函数的定义可知,FX(x)是右连续的。
性质:累积分布函数
函数F(x)是一个累积分布函数,当且仅当它同时满足下列三个条件。
定义:离散/连续随机变量
设X为一随机变量,如果FX(x)是x的连续函数,则称X是连续的(continuous);如果FX(x)是x的阶梯函数,则称X是离散(discrete)的。
累积分布函数FX能够完全确定随机变量X的概率分布。所以引出了随机变量同分布的概念。
定义:随机变量同分布
称随机变量X和Y同分布(identically distributed),如果对任意集合A∈B1,都有P(X∈A)=P(Y∈A)
注意两个同分布的随机变量并不表示 X=Y,比如令XY分别为连掷三次硬币正反面朝上的次数。
定理:同分布随机变量的性质
随机变量X与Y同分布,当且仅当 ∀x(FX(x)=FY(x))
6. 概率密度函数与概率质量函数
与随机变量X,累积分布函数FX相关的还有一个函数:若X是连续随机变量,该函数称作概率密度函数;若X是离散随机变量,该函数称作概率质量函数。它们关注的都是随机变量的“点概率”。
定义:概率质量函数(PROBABILITY MASS FUNCTION) 简称PMF
离散随机变量X的概率质量函数定义为:
∀x(fX(x)=PX(X=x))
概率质量函数的集合解释:PX(X=x),i.efX(x)等于累积分布函数在x处的跃变高度。
推广到连续变量的情景,则有:
P(X≤x)=FX(x)=∫x−∞fX(t)dt
定义:概率密度函数(PROBABILITY DENSITY FUNCTION),PDF
连续随机变量X的概率密度函数,是满足下式的函数:
FX(x)=∫x−∞fX(t)dt,x任意
定理:PDF/PMF的性质
函数fX(x)是随机变量X的概率密度函数(或概率质量函数),当且仅当它同时满足以下两个条件