外观
概率论
约 6022 字大约 20 分钟
2025-09-17
Part 1 基本公式
· 随机事件
(1) 随机试验: 在概率论中将具备下列三个条件的试验称为随机试验,简称试验:
在相同条件下可重复进行;
每次试验的结果具有多种可能性;
在每次试验之前不能准确预言该次试验将出现何种结果,但是所有结果明确可知。
(2) 样本空间: 随机试验的所有可能结果构成的集合,常用 Ω 表示。
(3) 随机事件: 随机试验的每一种可能的结果称为随机事件,常用 A, B, C, D 表示。
(4) 基本事件: 不能分解为其他事件组合的最简单的随机事件。
(5) 必然事件: 每次试验中一定发生的事件,常用 Ω 表示。
(6) 不可能事件: 每次试验中一定不发生的事件,常用 ∅ 表示。
/Definition/
事件的关系及运算:
(1) 包含: 若 A 发生必然导致 B 发生,则称 A 包含于 $$B$$,记为 A⊂B
(2) 相等: 若 A⊂B 且 B⊂A ,则称 A 与 B 相等,记为 A=B
(3) 事件的和: A 与 B 至少有一个发生,称为 A 与 B 的和事件,记为 A∪B
(4) 事件的积: A 与 B 同时发生,称为 A 与 B 的积事件,记为 A∩B(或 AB)
(5) 事件的差: A 发生而 B 不发生,称为 A 与 B 的差事件,记为 A−B
(6) 互斥事件: 在试验中,若事件 A 与 B 不能同时发生,即 A∩B=∅,则称 A, B 为互斥事件,或互不相容事件。
(7) 对立事件: 在每次试验中,“事件 A 不发生”的事件称为事件 A 的对立事件或逆事件。A 的对立事件常记为 A 。
· 概率定义
高中阶段我们接触过概率的统计学定义:
在相同的条件下,重复进行 n 次试验,事件 A 发生的频率稳定在某一常数 p 附近摆动,且一般说来,n 越大,摆动幅度越小,则称常数 p 为事件 A 的概率,记为 P(A).
下面我们尝试将概率公理化:
设 Ω 是一样本空间,称满足下列三条公理的集函数 P(⋅) 为定义在 Ω 上的概率:
非负性:任何事件的概率都不是负数,P(A)≥0。
可加性:如果事件A1、A2、⋯、An互斥,则
P(A1∪A2∪⋯∪An)=P(A1)+P(A2)+⋯+P(An)
P(i=1⋃∞Ai)=i=1∑∞P(Ai)
归一性:整个样本空间也被称为必然事件,它的概率为 1,P(Ω)=1。
· 运算性质
(1) 加法律
P(A∪B)=P(A)+P(B)−P(A∩B)
加法公式还能推广到多个事件的情况,例如,设 A1,A2,A3 为任意三个事件,则有
P(A1∪A2∪A3)=P(A1)+P(A2)+P(A3)−P(A1A2)−P(A1A3)−P(A2A3)+P(A1A2A3)
一般地,对于任意 n 个事件 A1,A2,⋯,An ,有
P(A1∪A2∪⋯∪An)=i=1∑nP(Ai)−1≤i<j≤n∑P(AiAj)+1≤i<j<k≤n∑P(AiAjAk)+⋯+(−1)n+1P(A1A2⋯An)
(2) 减法律
P(A)=1−P(A)P(A−B)=P(A)−P(A∩B)
(3) 结合律
A∩(B∩C)=(A∩B)∩CA∪(B∪C)=(A∪B)∪C
(4) 分配律
A∩(B∪C)=(A∩B)∪(A∩C)A∪(B∩C)=(A∪B)∩(A∪C)
(5) 补集定律(德摩根定律)
A∩B=A∪B
(只要不同时在A,B里就行)可推广:A∩B∩C=A∪B∪C
A∪B=A∩B
(既不能在A里也不能在B里)可推广:
A∪B∪C=A∩B∩C
· 条件概率公式
公式:
P(A∣B)=P(B)P(AB)
或等价形式
P(AB)=P(A∣B)P(B)
拓展(多事件链式公式): 对于事件序列 A1,A2,...,An:
P(A1∩A2∩...∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩A2∩...An−1)
· 贝叶斯公式
若 B1,B2,...,Bn 构成完备事件组(两两互斥且并集为样本空间),则:
全概率公式:
P(A)=i=1∑nP(Bi)P(A∣Bi)
贝叶斯公式:
P(Bk∣A)=P(A)P(Bk)P(A∣Bk)
事件 A 和 B 如果发生的因果关系极小(互不影响),则称 A 与 B 为独立事件。
此时满足: 概率乘法公式:
P(A∩B)=P(A)⋅P(B)
条件概率等价表述:
P(A∣B)=P(A)P(B∣A)=P(B)
· 古典概型
样本空间由 n 个等可能的基本事件构成,具有下列两个特点的试验称为古典概型:
(1) 每次试验只有有限种可能的试验结果。
(2) 每次试验中,各基本事件出现的可能性完全相同。
对于古典概型,事件 A 发生的概率为
P(A)=nThe number of basic events contained in event A
· 几何概型
如果随机试验的样本空间是一个区域(例如直线上的区间、平面或空间中的区域),而且样本空间中每个试验结果的出现具有等可能性,那么规定事件 A 的概率为:
P(A)=μ(Ω)μ(A)
· 事件独立性
如果事件 A 发生的可能性不受事件 B 发生与否的影响,也就是 P(A∣B)=P(A) ,则称事件 A 对于事件 B 独立。若 A 对于 B 独立,则 B 对于 A 也独立,那么就称事件 A 与事件 B 相互独立。
基本性质:
(1) A 与 B 相互独立 ⇔P(AB)=P(A)P(B) 。
(2) 若 A 与 B 相互独立,则 A∩B,A∩B,A∩B 中的每一对事件都相互独立。
针对 n 个事件相互独立: n(n>2) 个事件 A1,A2,⋯,An 中任意一个事件发生的可能性都不受其他一个或多个事件发生与否的影响,则称 A1,A2,⋯,An 相互独立。
基本性质:
(1) 如果事件 A1,A2,⋯,An 相互独立,则对于任意 k(1≤k≤n) 和任意 1≤i1<i2<⋯<ik≤n , P(Ai1Ai2⋯Aik)=P(Ai1)P(Ai2)⋯P(Aik) 成立。
(2) 如果事件 A1,A2,⋯,An 相互独立,则将 A1,A2,⋯,An 中任意多个事件换成它们的逆事件,所得的 n 个事件仍相互独立。
(3) 如果事件 A1,A2,⋯,An 相互独立,则
P(i=1⋃nAi)=1−i=1∏nP(Ai)。
· 重复独立试验
在 n 次试验中,若任意一次试验的诸结果是相互独立的,则称这 n 次试验为重复独立试验或独立试验序列。
(1) 伯努利概型:假定一次试验中只有事件 A 发生或 A 发生,每次试验的结果与其他各次试验结果无关,这样的 n 次重复试验称为 n 重伯努利试验或伯努利概型。
(2) 二项概率公式:设一次试验中事件 A 发生的概率为 p(0<p<1) ,则在 n 重伯努利试验中,事件 A 恰好发生 k 次的概率为 Pn(k)=Cnkpkqn−k , k=0,1,⋯,n ,其中 q=1−p 。
Part 2 一维随机变量
· 随机变量
看下面几个例子:
(1) 掷骰子:掷一次普通的六面骰子,将出现的点数记为𝑐。
(2) 投硬币:投掷 100 次硬币,统计正面出现的次数,记为𝑎。
(3) 班级人数:在一个学校里随机选择一个班级,将学生人数记为𝑛。
(4) 身高:测量一群人的身高,将结果记为ℎ。
(5) 重量:记录某个产品的质量,将结果记为𝑚。
(6) 时间:记录一个运动员跑 100 米的时间为𝑡。
随机变量是实验结果的实值函数:将实验结果与某个实数绑定。
而随机变量可根据分布特点划为两种情况:离散随机变量和连续随机变量。
除了一维变量,还常见二维变量,比如:
(1) 考试成绩:将学生的英语分数𝑎和数学分数𝑏记录为一个二维数据(𝑎, 𝑏)。
(2) 温度湿度:将城市中一天内的平均温度𝑇与湿度𝑊记录为一个二维数据(𝑇, 𝑊)。
· 定义
设 E 是一个随机试验,其样本空间为 Ω=ω,如果对于每一个样本点 ω∈Ω,都有唯一的一个实数 X(ω) 与之对应,则称 X(ω) 为一维随机变量。通常用 X,Y,Z,⋯ 表示随机变量。
分布函数
设 X 是一个随机变量,x 是任意实数,则函数 F(x)=P{X≤x} 称为 X 的分布函数。
(1) 单调性: F(x) 是一个单调不减的函数,即当 x1<x2 时,F(x1)≤F(x2)。
(2) 有界性: 0≤F(x)≤1,且
F(+∞)=x→+∞limF(x)=1,F(−∞)=x→−∞limF(x)=0.
(3) 右连续性: F(x+0)=F(x),即 F(x) 是右连续函数。
由分布函数求概率
P{a<X≤b}=P{X≤b}−P{X≤a}=F(b)−F(a).
· 一维离散变量
· 0-1分布
其分布律为
X | 0 | 1 |
---|---|---|
P | p | 1-p |
其中 p 为事件 A 出现的概率, 0<p<1 。
· 二项分布
若实验仅有两种结果 A 和 A,且 P(A)=p。将该实验独立重复 n 次,事件 A 发生的次数 X 服从二项分布,
其概率分布律为:
P(X=k)=Cnkpk(1−p)n−k=k!n(n−1)⋯(n−k+1)pk(1−p)n−k
记法:
X∼b(n,p)
· 泊松分布
当二项分布中 n≥20 且 p≤0.05 时,可用泊松分布近似,其概率公式为:
P(X=k)=k!λke−λ(λ=np)
记法:
X∼π(λ)
拓展知识:当𝝀越来越大时,泊松分布曲线越发接近正态分布。
关于泊松分布的由来:
当二项分布 X∼b(n,p) 满足 n→+∞ 且记 λ=np 时:
P(X=k)=n→∞limCnkpnk(1−pn)n−k=n→+∞limk!n(n−1)⋯(n−k+1)pk(1−p)n−k=k!λke−λ
通过泰勒展开式验证所有概率之和为1:
ex=k=0∑nk!xk=1+1!x+2!x2+⋯+n!xn
概率求和:
k=0∑nP(X=k)=k=0∑nk!λke−λ=e−λ⋅eλ=1
· 超几何分布
设随机变量 X 的分布律是
P{X=i}=CNnCMiCN−Mn−i(i=0,1,2,⋯,l;l=min{n,M}),
其中 M,N,n 都是自然数,且 n<N,M<N ,则称 X 服从参数为 N,M,n 的超几何分布,记作 X∼H(N,M,n) 。
· 几何分布
设随机变量 X 的分布律为
P{X=i}=(1−p)i−1p,i=1,2,⋯,
其中 0<p<1 ,则称 X 服从参数为 p 的几何分布,记为 X∼G(p) 。
· 一维连续变量
设想以下几种情况:
(1) 让一辆车随机停在街边的某个位置,坐标记为 x 。
(2) 一个运动员跑 100 米所需的时间,记为 t 。
如何描述随机变量 x 和 t 的取值情况?需要认识什么是概率密度函数。
设 X 是一个连续随机变量,x 是任意实数:
概率密度函数 (PDF)
f(x)=Δx→0limΔxP(x≤X≤x+Δx)
概率分布函数 (CDF)
F(x)=P(X≤x)
特性 | 密度函数 f(x) | 分布函数 F(x) |
---|---|---|
两端 | x→∞, f(x)→0 | x→−∞, F(x)→0 x→+∞, F(x)→1 |
单调性 | 不一定 | 单调递增 |
阴影面积 | ∫−∞+∞f(x)dx=1 | 不一定 |
应用场景 | 关注特定区间的概率情况 | 关注左侧 (≤) 的整体累积情况 |
关联 | F′(x)=f(x) | ∫−∞xf(t)dt=F(x) |
· 均匀分布
概率密度函数 (PDF):
f(x)={b−a1,0,a≤x≤bothers
概率分布函数 (CDF):
F(x)=⎩⎨⎧0,b−ax−a,1,x<aa≤x≤bx>b
期望:
μ=2a+b
方差:
σ2=12(b−a)2
· 正态分布
概率密度函数 (PDF):
ϕ(x)=σ2π1e−2σ2(x−μ)2(x∈R)
概率分布函数 (CDF):
Φ(x)=21[1+erf(σ2x−μ)]
期望: μ 方差: σ2.
标准正态分布:当 μ=0,σ=1 时称 X 服从标准正态分布,简记为 X∼N(0,1) ,其概率密度函数和分布函数分别用 φ(x),Φ(x) 表示,即有
φ(x)=2π1e−2x2
Φ(x)=2π1∫−∞xe−2t2dt.
性质 1
Φ(−x)=1−Φ(x)
性质 2 :当 X∼N(μ,σ2) 时, U=σX−μ∼N(0,1) ,即
F(x)=Φ(σx−μ)
可把一般正态分布化为标准正态分布 N(0,1)
· 指数分布
概率密度函数 (PDF):
f(x)={λe−λx,0,x≥0x<0
概率分布函数 (CDF):
F(x)={0,1−e−λx,x<0x≥0
期望:
μ=λ1
方差:
σ2=λ21
· 随机变量函数分布
(1). 离散型随机变量函数的分布
设随机变量 X 的分布律为 P{X=xk}=pk,k=1,2,⋯ ,则当 Y=g(X) 的所有取值为 yj(j=1,2,⋯) 时,随机变量 Y 有分布律
P{Y=yj}=g(xk)=yj∑P{X=xk}.
(2). 连续型随机变量函数的分布
方法一:设随机变量 X 的概率密度函数为 fX(x)(−∞<x<+∞) ,那么 Y=g(X) 的分布函数为
FY(y)=P{Y≤y}=P{g(X)≤y}=∫g(x)≤yfX(x)dx,
其概率密度为 fY(y)=FY′(y) 。
方法二:设随机变量 X 具有概率密度函数 fX(x)(−∞<x<+∞) , g(x) 为 (−∞,+∞) 内严格单调的可导函数,则随机变量 Y=g(X) 的概率密度为
fY(y)={[fX(h(y))]∣h′(y)∣,0,α<y<β,others,
其中 h(y) 是 g(x) 的反函数,
α=min{g(−∞),g(+∞)},β=max{g(−∞),g(+∞)}
· 例题
设随机变量X的概率密度函数如下:
fX(x)={2x,0,0≤x≤2others
(1) Y=3X+4 的概率密度函数。 (2) Y=eX 的概率密度函数。 (3) Y=(X−1)2 的概率密度函数。
(1) 第一步:求Y的分布函数
FY(y)=P(Y≤y)=P(3X+4≤y)=P(X≤3y−4)=FX(3y−4)
第二步:求Y的概率密度函数
fY(y)=dydFY(y)=dydFX(3y−4)=fX(3y−4)⋅31
第三步:代入fX中:
fY(y)={18y−4,0,4≤y≤10others
(2) 第一步:求Y的分布函数
FY(y)=P(Y≤y)=P(eX≤y)=P(X≤lny)=FX(lny)
第二步:求Y的概率密度函数
fY(y)=dydFY(y)=dydFX(lny)=fX(lny)⋅y1
第三步:代入fX中:
fY(y)={2ylny,0,1≤y≤e2others
(3) 第一步:求Y的分布函数
FY(y)=P(Y≤y)=P((X−1)2≤y)=P[(1−y)≤X≤(1+y)]=FX(1+y)−FX(1−y)
第二步:求Y的概率密度函数
fY(y)=dydFY(y)=fX(1+y)⋅2y1+fX(1−y)⋅2y1
第三步:代入fX中:
fX(x)={2y1,0,0≤y≤1others
Part 3 二维随机变量
· 二维连续变量
二维连续随机变量 (X,Y) 的联合概率密度函数 f(x,y) :
f(x,y)=Δx→0+Δy→0+limΔx⋅ΔyP(x≤X≤x+Δx,y≤Y≤y+Δy)
二维连续随机变量(X,Y)的联合概率分布函数F(x,y):
F(x,y)=P{X≤x,Y≤y}
概率密度与概率分布之间的关系:
F(x,y)=∫−∞y∫−∞xf(u,v)dudv
f(x,y)=∂x∂y∂2F(x,y)
边缘概率密度函数fX(x)、fY(y):
fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx
边缘概率分布函数FX(x)、FY(y):
FX(x)=P{X≤x}FY(y)=P{Y≤y}
彼此关联:
dxdFX(x)=fX(x),∫−∞xfX(x)dx=FX(x)dydFY(y)=fY(y),∫−∞yfY(y)dy=FY(y)
· 相互独立性
在二维随机变量 (X,Y) 中,如果 X 和 Y 相互独立,则有以下等式成立:
F(x,y)=FX(x)⋅FY(y)f(x,y)=fX(x)⋅fY(y)
这两个式子也可以用来判断两个变量是否相互独立。
· 二维连续变量的函数
设 (X,Y) 是二维连续随机变量,其联合概率密度为 f(x,y),则随机变量 Z 的常见函数形式包括:
- 和函数:Z=X+Y
- 商函数:Z=XY
- 积函数:Z=XY
- 最大值函数:Z=max{X,Y}
- 最小值函数:Z=min{X,Y}
对于上述任意函数形式,求 Z 的概率分布函数 FZ(z) 或概率密度函数 fZ(z) 的步骤如下:
(1) 确定取值范围
根据 (X,Y) 的联合分布范围,确定 Z 的有效取值区间:
z∈[α,β]
(2) 建立积分区域
在 xOy 平面中,绘制不等式 Z≤z 对应的区域 D:
D={(x,y)∣g(x,y)≤z}
其中 g(x,y) 表示 Z 与 (X,Y) 的函数关系式
(3) 计算分布函数
通过二重积分求概率:
FZ(z)=P(Z≤z)=∬Df(x,y)dxdy
(4) 求导得密度函数
对分布函数求导获得概率密度:
fZ(z)=dzdFZ(z)
Part 4 随机变量的数字特征
· 期望 方差
· 期望
/Definition/
(1). 离散随机变量
E(X)=i=1∑nXiP(X=Xi)
(2). 一维连续随机变量
E(X)=∫−∞+∞xf(x)dx
(3). 二维连续随机变量
E(X)=∬−∞+∞xf(x,y)dxdy
E(Y)=∬−∞+∞yf(x,y)dxdy
E(XY1)=∬−∞+∞xyf(x,y)dxdy
数学期望的性质:
(1). 线性性质
E(CX)=C⋅E(X),E(X+C)=E(X)+C
(2). 可加性
E(X+Y)=E(X)+E(Y)
(3). 独立性:若 X,Y 独立,则 E(XY)=E(X)⋅E(Y)
· 方差
/Definition/
方差 D:衡量随机变量的分散程度
(1). 离散随机变量
D(X)=Var(X)=k=1∑∞[Xk−E(X)]2P(X=Xk)
(2). 一维连续随机变量
D(X)=Var(X)=∫−∞+∞[x−E(X)]2f(x)dx
方差的性质:
(1). 线性变换
D(CX)=C2D(X),D(X+C)=D(X)
(2). 可加性
D(X+Y)=D(X)+D(Y)+2E{[X−E(X)][Y−E(Y)]}
若 X,Y 独立,则 D(X+Y)=D(X)+D(Y).
(3). 简化计算
D(X)=E(X2)−[E(X)]2
(4). 标准差
σ=D(X)
分布 | 期望 | 方差 |
---|---|---|
二项分布 X∼b(n,p) | np | np(1−p) |
泊松分布 X∼π(λ) | λ | λ |
均匀分布 X∼U(a,b) | 2a+b | 12(b−a)2 |
正态分布 X∼N(μ,σ2) | μ | σ2 |
指数分布 X∼Exp(λ) | λ1 | λ21 |
· 协方差
E{[X−E(X)][Y−E(Y)]} 被称为随机变量 X,Y 的协方差,记为 Cov(c)。
(1).
Cov(aX,bY)=abCov(X,Y)
其中a,b是常数
(2).
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
(3). 协方差的公式还可以等价于:E(XY)−E(X)E(Y)
基于协方差,还会产生一个概念:相关系数ρxy
ρxy=σ(X)⋅σ(Y)Cov(X,Y)=D(X)D(Y)E{[X−E(X)][Y−E(Y)]}
ρxy 的取值介于 [−1,1] 之间,其越接近0说明两者线性相关性越低(ρxy=0,则称两变量不相关),绝对值越大则越呈线性相关(-1则是负相关,+1是正相关)。
注意:两变量不相关 = 两变量独立,不相关不一定独立,但独立一定不相关。
· 随机变量的矩
一维随机变量的矩:对于一维随机变量 X:
k阶原点矩:
E(Xk)(k=1,2,⋯)
k阶中心矩:
E[(X−EX)k](k=2,3,⋯)
特殊情形:
- 数学期望 EX 是 X 的一阶原点矩
- 方差 DX 是 X 的二阶中心矩
二维随机变量的混合矩:设 (X,Y) 是二维随机变量:
k+l阶混合原点矩:
E(XkYl)(k,l=1,2,⋯)
k+l阶混合中心矩:
E[(X−EX)k(Y−EY)l](k,l=1,2,⋯)
重要结论:协方差 Cov(X,Y) 是 X 与 Y 的混合二阶中心矩。
Part 5 大数定理与中心极限定理
· 切比雪夫不等式
设随机变量 X 的期望为 E(X),方差为 D(X),则对于任意给定的 ϵ>0,有:
P{∣X−E(X)∣≥ϵ}≤ϵ2D(X)
或等价地
P{∣X−E(X)∣<ϵ}≥1−ϵ2D(X)
说明:
- 该不等式给出了随机变量偏离期望值的概率上界
- 方差 D(X) 越小,偏离概率的上界越小
- 适用于任何具有有限方差的随机变量
· 大数定律
大数定理:在大量重复试验中,样本平均数会趋近于理论期望值。换句话说,当试验次数足够多时,实验结果的平均值会接近预期的长期平均值。
切比雪夫大数定律 (Chebyshev's LLN).
条件:
- 随机变量序列 X1,X2,⋯,Xn,⋯ 相互独立
- 数学期望 EXi 和方差 DXi 都存在
- 方差有公共上界:DXi≤c (i=1,2,⋯)
结论: 对任意 ϵ>0,有
n→∞limP{n1i=1∑nXi−n1i=1∑nEXi<ϵ}=1
核心思想: "只要方差有限,大量重复试验的平均值会接近期望值"
伯努利大数定律 (Bernoulli's LLN).
条件: 设 Xn∼B(n,p),μn 是 n 次伯努利试验中事件 A 发生的次数
结论: 对任意 ϵ>0,有
n→∞limP{nμn−p<ϵ}=1
核心思想: "投硬币这类事情,大量地实验结果里,频率会接近概率"
辛钦大数定律 (Khinchin's LLN).
条件: 随机变量序列 X1,X2,⋯,Xn,⋯ 相互独立同分布,且 EXi=μ
结论: 对任意 ϵ>0,有
n→∞limP{n1i=1∑nXi−μ<ϵ}=1
核心思想: "同一类型的随机变量,大量样本的平均值会接近期望值"
· 中心极限定理
n个随机变量X1,X2,X3,⋯,Xn,它们相互独立且服从同一种分布规律(独立同分布),期望值为μ,方差为D,有:
nD∑i=1nXi−nμ∼N(0,1)ori=1∑nXi∼N(nμ,nD)
D/nX−μ∼N(0,1)orX∼N(μ,nD)
概率部分结束.
更新日志
2025/10/12 15:13
查看所有更新日志
c9ee8
-plume于a8b03
-cybernetics于a28aa
-a于