概率论
随机事件与概率
概率论基本概念
随机试验
样本空间(集合)、样本点
随机事件:样本空间的子集
事件间的关系
包含:A发发生一定导致B发生,则B包含A
相等:A=B,A包含B,B包含A
互斥:AB不可能同时发生,A∩B=∅
对立一定互斥,互斥不一定对立
事件的运算
并:A、B至少发生一个
交:A、B同时发生
差:A-B,A发生B不发生
对立事件:A不发生
德摩根律,A-B=A-AB=AB’差变交
概率
公理化定义
非负性
规范性
可列可加性(互不相容时)
性质
P(A-B) = P(A) - P(AB)
若A⊂B,则P(A)≤P(B)
P(A⋃B)=P(A)+P(B)-P(AB)
𝑷(𝑨⋃𝑩⋃𝑪)=𝑷(𝑨)+𝑷(𝑩)+𝑷(𝑪)−𝑷(𝑨𝑩)−𝑷(𝑨𝑪)−𝑷(𝑩𝑪)+𝑷(𝑨𝑩𝑪), 推广
Boole不等式: (
Union Bound
) (非互不相容的事件集) 两种方法证明
古典概型
特点:样本空间的元素只有有限个; 每个样本点发生的可能性相同
定义:P(A)=A包含样本点数/Ω包含样本点数=(|A|)/(|Ω|)
典型例题
男n女m,围成一圈,女生互不相邻的概率?
抽签原理
随机取数(乘积能被10整除):分解成两个事件的交——至少一个偶数,至少一个5
取铆钉:利用互斥性
几何概型
特点:样本空间无限性;等可能性
定义:𝑷(𝑨)=𝑨的几何测度/𝛀的几何测度=(𝝁(𝑨))/(𝝁(𝛀))
典型例题
约会问题:0<=x, y<=60, |x-y| <= 15, 面积
蒲丰投针
条件概率
定义:𝑷(𝑨│𝑩)=𝑷(𝑨𝑩)/𝑷(𝑩)
本质:缩减的样本空间
乘法公式:
𝑷(𝑨𝑩)=𝑷(𝑨)𝑷(𝑩|𝑨), 𝑷(𝑨𝑩)=𝑷(𝑩)𝑷(𝑨|𝑩),
推广到多个事件:若𝑷(𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏) )>𝟎,则𝑷(𝑨𝟏 𝑨𝟐⋯𝑨𝒏 )=𝑷(𝑨𝟏 )𝑷(𝑨𝟐│𝑨𝟏 )⋯𝑷(𝑨𝒏 |𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏))
全概率公式(求结果发生的概率(即求𝑷(𝑩)))
应用:推迟决定原则
贝叶斯公式:(已知事件𝑩发生,求𝑩由第𝒊个原因引起的概率(即求𝑷(𝑨𝒊 |𝑩)))
应用:患肝癌概率,三囚犯问题,三门问题
独立性: P(AB) = P(A)P(B)
性质:P(B|A) = P(B), 概率为0或1的事件与任意事件独立,A,A'与B,B'都相互独立
独立与互不相容的关系:(P(A)、P(B)均大于0)若A、B相互独立,则不可能互不相容; 若A、B互不相容,则不可能相互独立(P(A)P(B) > 0)
n个事件的独立性:n个事件独立 =>其中任意k个事件独立,反之不成立
分组独立性:
独立事件至少发生一次的概率:
应用:系统可靠性,矩阵乘法验证
离散型随机变量
随机变量
定义:把𝛀中的每一个样本点𝝎与一个实数𝑿(𝝎)相对应,称实值函数𝑿:𝛀→𝑹为随机变量,随机变量在某范围的取值表示随机事件
Y = g(X)的分布:合并相同项
二维离散型随机变量(X, Y)
联合分布律:𝒑𝒊𝒋=𝑷(𝑿=𝒙𝒊,𝒀=𝒚𝒋 )(列表)
边缘分布律:P{X = xi} = Pi·, P(Y = yj) = P·j
两个离散型随机变量的独立性:对所有x, y, 𝑷(𝑿=𝒙,𝒀=𝒚)=𝑷(𝑿=𝒙)𝑷(𝒀=𝒚), 则X, Y独立
推广:多个离散型随机变量的独立性:对任意取值的x1, ..., xn, P(X1=x1, ..., Xn = xn) = P(X1 = x1)...P(Xn = xn) (只要一个公式)
期望
定义
有4个盒子,编号为1,2,3,4。现将3个球随机放入4只盒子。用𝑿表示有球盒子的最小号码,求𝑬(𝑿).
随机变量函数的期望:
期望的线性性质:(
如何证明*
)(不依赖于独立性)
例:猴子打字
一般E(f(x)) != f(E(x)), 如E[x^2] >= E[x] ^2
Jensen不等式:设f为下凸函数,则E[f(x)] >= f(E[x])
几个典型的离散型随机变量
0-1分布(伯努利试验):随机试验只有两个结果:A与A',A发生则X=1,否则X=0,X为指示变量
期望:E[X] = p
方差:D(X) = p(1-p)
二项分布(n重伯努利试验, 每次实验结果相互独立, X为n次试验中A发生的次数):
定义:记为X~B(n, p)
期望:E(x) = np(证明:
公式*
/ 期望的线性性质)
二项式定理:
方差:D(X) = np(1-p) (由0-1分布方差相加而来)
二项分布的最大值(
解法*
):(n+1)p-1<=k0<=(n+1)p (np附近)
泊松近似公式:(n>=20, p <= 0.1)时,P(X = k)近似于
泊松分布(大量实验中稀有事件出现的次数, λ意义:事件的平均发生次数)
定义:
(验证*)
期望:E(X) = λ
(证明*)
方差:D(X) = λ (
证明*
)
泊松变量的和:仍是泊松变量:若𝑿∼𝑷(𝝀𝟏),𝒀~𝑷(𝝀𝟐)且𝑿,𝒀
独立
,则𝑿+𝒀~𝑷(𝝀𝟏+𝝀𝟐)(证明*!)
例:昆虫卵的分布*(条件概率+全概率公式)
几何分布(多重伯努利试验,不断重复直至A发生所需次数)
定义:
无记忆性(
证明*, P(X>t) = q^t
):假设已经经历了𝒏次失败,则从当前起直至成功所需次数与𝒏无关。严格地,设𝑿~𝑮(𝒑),则对于任意自然数𝒔,𝒕有𝑷(𝑿>𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿>𝒕),等价地,𝑷(𝑿=𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿=𝒕)
期望:E(x) = 1/p(
三种证明方法*:定义(注意求导、负号) / 定理 / 条件期望
)
方差:D(x) = (1-p)/p^2
(证明*:两种算E[X^2]方法: 定义(求导、错位相减) / 条件期望+无记忆性)
典型例题:票券收集问题(调和级数H(n) = lnn+θ(1)),快速排序比较次数X的期望
条件期望(常结合无记忆性)
条件分布(某事件A发生的条件下X的分布):P(X = x | A)
条件期望
全期望公式(
证明*
)
应用:证明几何分布的期望(按第一次事件是否发生分情况,利用无记忆性)
条件期望定义的随机变量:f(Y) = E[X|Y] -> Y的函数构成的随机变量
性质:E[E[X|Y]] = E[X](
证明*, 用全期望公式
)
应用:分支过程(递归式)
方差
马尔可夫不等式(
证明*,引入变量I<=x/a
) 只知道期望,且取值非负时使用 ,P(X>=cE[x]) <= 1/c
方差(反应数据的离散程度)
定义:D(X) = E[(X-E[X])^2]
简便计算:D(X) = E[X^2] - E[X]^2
性质:D(c) = 0,D(cX) = c^2D(X), D(-X) = D(X) (无线性性质)
协方差
定义:随机变量𝑿和𝒀间的协方差为𝐜𝐨𝐯(𝑿,𝒀)=𝑬[(𝑿−𝑬[𝑿])(𝒀−𝑬[𝒀])]=𝑬[𝑿𝒀]−𝑬[𝑿]⋅𝑬[𝒀]. 特别地,𝐜𝐨𝐯(𝑿,𝑿)=𝑫(𝑿).
𝑫(𝑿±𝒀)=𝑫(𝑿)+𝑫(𝒀)±𝟐𝐜𝐨𝐯(𝑿,𝒀) (证明)
性质
cov(X, c) = 0
cov(aX, bY) = ab·cov(X, Y)
cov(X1+X2, Y) = cov(X1, Y) + cov(X2, Y)
若X与Y
独立
,则cov(X, Y) = 0 (反之不成立),即E[XY] = E[X]E[Y] , D(X+Y) =
D(X - Y)
= D(X) + D(Y)
随机变量和的方差
切比雪夫不等式(
证明*
:利用马尔可夫)
例:抛硬币
连续型随机变量
一维连续型随机变量
分布函数
定义:F(x ) = P(X <= x)
P(x1 <= X <= x2) = F(x2) - F(x1)
性质(反之,任一有下列三个性质的函数都是某随机变量的分布函数)
单调不减(证明)
F(-∞) = 0, F(+∞) = 1
F(x) 是
右连续
的(左闭右开)
连续型随机变量
定义
性质
对任意x,p(x) > 0
∫(-∞,+∞) p(x)dx = 1
F(x)是连续函数
P(x1 <= X <= x2) = F(x2) - F(x1) = ∫(x1,x2) p(x)dx
P(x=a) = 0
若p(x)在点x处连续,则F(x)' = p(x)
连续型随机变量函数的分布计算
分布函数法
定理(绕过积分)
联合分布函数
定义:F(x, y) = P(X < x, Y < y) (几何意义:无穷矩形)
性质
F(x,y)对每个变量单增不减
F(-∞, y) = 0, F(0, -∞) = 0, F(-∞, -∞) = 0, F(+∞, +∞) = 1
F(x, y)关于每个变量右连续
边缘分布函数: FX(x) = F(x, +∞) = P(X <= x) , FY(y) = F(+∞, y) = P(Y <= y)
随机变量的独立性
定义:对任意x,y, P(X<=x, Y<=y) = P(X<=x)P(Y<=y) <=> F(x, y) = FX(x)FY(y), 则随机变量X,Y相互独立
定理:若X, Y独立, 则f(X), g(Y)也独立
期望(绝对收敛则存在)
性质
方差、协方差:同连续型
二维连续型随机变量
定义
性质
p(x, y) >= 0
∫(-∞,+∞)∫(-∞,+∞)p(x, y)dxdy = F(+∞, +∞) = 1
边缘密度:已知联合密度p(x, y),求X, Y的密度函数
二维随机变量函数的分布:已知p(x, y), 求Z = g(X, Y)的概率密度
分布函数法
卷积公式(
Z=X+Y
)
不独立时
极大极小分布
二维随机变量条件分布率
二维连续型随机变量独立的条件:p(x, y) = pX(x)·pY(y)
条件分布、条件密度
乘法公式
全概率公式
典型连续型随机变量的分布
均匀分布
密度函数
分布函数
期望,方差
定理(FY(y) <= y)
指数分布
密度函数
分布函数
期望,方差
无记忆性
多个指数分布随机变量极小值的分布
正态分布
密度函数
几何特征
曲线在𝒙=𝝁±𝝈处有拐点
当固定𝝈,改变𝝁大小时,图形的形状不变,只是沿着横轴作平移变换
当固定𝝁,改变𝝈大小时,图形对称轴不变,但形状在改变;𝝈越小,图形越高越陡,反之图形越低越缓
分布函数
期望,方差(
证明*:换元,奇函数,σ=1、μ=1的正态分布积分=1
)
标准正态分布N(0,1)
性质(随机变量函数公式证明*)
一般正态分布的概率计算
独立正态分布随机变量的和
典型二维连续型随机变量分布
二维均匀分布
二维正态分布
边缘分布
独立性:X,Y独立 <=> ρ=0
协方差:cov(X,Y) = ρσ1σ2, cov(X*, Y*) = ρ
相关系数
标准化随机变量
相关系数
相关系数性质
柯西许瓦兹不等式
不相关等价定义
相关性
若|𝝆𝑿𝒀|=𝟏,则称𝑿,𝒀线性相关
𝝆𝑿𝒀=𝟏, 正相关
𝝆𝑿𝒀=−𝟏, 负相关
𝝆𝑿𝒀表示𝑿与𝒀存在线性关系的强弱程度。
|𝝆𝑿𝒀|越大, 𝑿与𝒀线性关系越强,反之越弱
|𝝆𝑿𝒀|=𝟎表示𝑿与𝒀不存在线性关系,称为不相关。
极限理论
大数定律(研究随机变量序列的均值收敛问题)
实例:如果工件的测量值真值为𝒂,第𝒏次测量值为𝑿𝒏,则{𝑿𝒏}就是一个独立同分布,均值为𝒂的随机变量序列。当𝒏充分大时,𝒏次测量的平均值应该和真值𝒂很接近。大量测量值的算术平均值具有稳定性,这就是大数定律的反映。
依概率收敛
区别于数列的收敛:对于给定的ε,Yn和a的距离可能会大于或等于ε,只是当n趋向于无穷时,这个取值偏差较大的概率将趋于0
连续映射定理(依概率收敛的随机变量的函数也依概率收敛)(
证明
)
大数定律
定义:随机变量的平均值
依概率趋向于
它们数学期望的平均值.
马尔可夫大数定律(利用切比雪夫不等式)
切比雪夫大数定律(
两两互不相关
)
独立同分布大数定律(切比雪夫大数定律的特殊情形)
该定理条件𝑫(𝑿𝒌 )=𝝈^𝟐可以省去,即只需期望存在。(被称为
辛钦大数定律
)
伯努利大数定律(频率稳定性的严格数学定义)
中心极限定理(随机变量和的正态分布)
定义(
Zn的极限分布为标准正态分布
)
独立同分布情形中心极限定理(本质上∑Xk服从正态分布,从而标准化后服从标准正态分布)
对于独立同分布的随机变量序列{𝑿_𝒏}
大数定律描述了其均值(或和)在𝒏→∞的趋势
中心极限定理则能给出给定n与x时的具体概率近似(也可以知道概率与x,求n;或者知道概率与n,求x)
伯努利情形中心极限定理
推论(n较大时二项分布的概率计算方法)n较大时,μn~N(np, np(1-p))
用频率估计概率时误差的估计
统计量与抽样分布
基本概念
总体、个体
总体:研究对象的某项数量指标的值的全体。
个体:总体中的每个元素为个体。
研究对象的数量指标𝑿的取值在客观上有一定的分布,因此,可将其看做随机变量,它的分布称为
总体分布
。
样本
样本的二重性:
就一次具体观察而言,样本值是确定的数
在不同的抽样下,样本值会发生变化,因此可看做是随机变量
样本定义
特点
代表性:样本的每个分量𝑿𝒊与总体𝑿具有相同的分布
独立性:𝑿𝟏,𝑿𝟐,…,𝑿𝒏相互独立。
样本联合分布/密度
统计量(是随机变量)
常用统计量
样本均值
样本方差
修正样本方差
二者关系
样本标准差
样本k阶原点矩
样本k阶中心距
结论1:样本均值的均值和方差
正态总体的抽样分布
正态总体样本的
线性函数
的分布
定义
特别地,若取a=1/n,则U = X¯~N(μ,σ²/n)
标准正态分布的上α分位点
χ²分布(独立+
N(0,1)!
)
定义
性质
1、可加性:设X1~χ²(n1), X2~χ²(n2),且 X1, X2相互
独立
,则X1+X2 ~χ²(n1+n2)
2、若X~χ²(n) ,
则E(X)=n, D(X)=2n. (证明)
χ²分布的上α分位点
t分布
定义(二者独立!)
t分布的上α分位点
性质
F分布
定义(独立!)
F分布的上α分位点
性质
关于正态总体抽样分布的四个定理
1、样本
均值
的分布(X¯~N(μ,σ²/n))
2、样本
方差
的分布(χ²分布)(独立*)
3、由1和2推论(t分布)
4、两正态总体,样本方差比(S1²/S2²)
(F分布)
、样本均值差(X¯-Y¯)的分布(
t分布
)(
证明*
)
参数估计
点估计(构造1个统计量)
矩估计
原则:以样本矩作为总体矩的估计,从而得到参数的估计量。
矩的定义
k阶原点矩:E[X^k]
k阶中心距:E[(X-EX)^k]
期望是1阶矩,方差是2阶中心距
矩估计定义
方法
一个未知参数时(用X¯代替EX)
两个未知参数时
注意:Sn有两种形式!
结论
极大似然估计
原则:选取估计值使得观测值出现的概率最大
离散情况:似然函数
连续情况:似然函数
单参数情况求最大值:
多参数情况求最大值:
没有极值时,从似然函数本身考虑最大值
正态分布的极大似然估计量:μ = 样本均值,σ^2=样本方差
极大似然估计的
不变性
估计量的评选标准
无偏性
定义
k阶样本矩一定是k阶总体矩的
无偏且一致
估计量
特别地
样本方差Sn^2是有偏的!(
证明*
)修正样本方差S^2是无偏的!
注意
特别地,虽然S^2是σ^2的无偏估计量,但S不是σ的无偏估计量
有效性
多个估计量都无偏时,以方差小为好
定义:
算术均值比加权均值更有效.
一致性
无偏性与有效性都研究固定样本量的情况
一致性关注样本量n->∞的情况
定义
证明一致性的两个常用结论
k阶矩
已知是无偏估计量时
区间估计(构造两个统计量作为一个区间)
基本概念
区间估计
置信区间:[θ1^,θ2^]
置信度:1-α
说明
置信区间长度L反映了估计精度,L越小,估计精度越高
α反映了估计的可靠度,α越小,1-α越大,估计的可靠度越高,但此时L往往增大,估计精度降低
α确定后,置信区间的选取方法不唯一,常选长度最小的一个
枢轴变量法
单正态总体情形
均值μ的区间估计
已知方差,估计均值(样本均值的正态分布:定理1)
未知方差,估计均值(定理3)
未知均值,估计方差σ²(定理2)
双正态总体情形
已知方差σ1²、σ2²,估计均值差μ1-μ2(样本均值差服从正态分布)
未知均值,估计方差比(定理4(1),F分布)
单侧置信区间:只关心置信区间的上限或下限
单侧置信下限
单侧置信上限
非正态总体:均值的区间估计(大样本法)
大样本法:若样本量较大,可利用极限定理求出枢轴变量的近似分布,再求出未知参数的区间估计。
假设检验
基本概念
假设:假设是指施加于一个或多个总体的概率分布或参数的假设. 所作假设可以被接受或被拒绝.
反证法思想:为判断所作的假设能否被接受, 先假设其成立, 然后从总体中抽取样本, 根据样本的取值看是否有不合理的现象出现, 最后作出接受或拒绝所作假设的决定.
不合理:小概率事件在一次试验中几乎不会发生
本检验方法是 概率意义下的反证法,故拒绝原假设是有说服力的, 而接受原假设是没有说服力的. 因此应把希望否定的假设作为原假设
主要内容
参数检验
总体均值、方差的检验
双正态总体均值差、方差比的检验
非参数检验
拟合优度检验
独立性检验
显著水平α
假设检验中,我们需要对小概率的说法给出统一界定,通常给出一个上限α,当一个事件发生的概率小于α,我们认为这是小概率事件。
α常见取值 0.01, 0.05, 0.1
在假定 H0成立下,若根据样本提供的信息判断出某“异常”现象(发生概率p <=α)发生,则认为H0错误显著。称α为显著水平。
假设检验步骤
1. 根据实际问题,提出原假设H0和备择假设H1;
2. 确定检验统计量
3. 根据显著水平α,确定拒绝域
4. 由样本计算统计量值
5. 做出判断是否接受H0
两类错误
第一类错误: 为真时,我们仍有可能拒绝 ,此时犯了“弃真”错误
第二类错误: 不成立时,我们仍有可能接受 ,此时犯了“存伪”错误
正态总体
均值
的假设检验
单正态总体
σ²已知(正态分布检验)
σ²未知(t检验)
双正态总体
σ1²,σ2²已知,检验均值差(正态分布检验)
σ1²,σ2²未知但相等(定理4(2))
成对数据
之前均假设X与Y的独立性;现实中,X和Y可能来源于同一个总体的重复测量称为block数据)
正态总体
方差
的假设检验
单正态总体(μ未知,χ²分布检验,定理2)
双正态总体,检验方差比
二项分布的检验
对于伯努利分布中p的检验(大样本法)
总结
关于μ的检验
关于σ²的检验
双正态总体μ1=μ2的检验
双正态总体σ1=σ2的检验
提醒
一致性关注n趋于无穷情况,可用连续映射定理,证明一致性两个常用定理
样本k阶矩是总体k阶矩的一致性估计量
已知无偏时,方差趋于0
注意估计量是σ²还是σ
连续型随机变量的函数均值,不用求密度函数,直接积分,与离散型相同
max与min
P(min<10) = 1-P(min>10) = 1-P(x1>10)···P(xn>10)
max、min的分布函数
多个指数分布极小值的分布
碰到α最好先画个图,别弄反
分部积分 注意正负号
1/θ求导时别忘了复合求导
o.w.的情况
独立时,E[XY] = E[X]E[Y]而不是0
非正态总体区间估计:中心极限定理,服从正态分布,若方差不知道则用样本方差代替
χ²分布的期望和方差样本均值和样本方差独立
求和的方差时,注意独立性!
正态分布:X、Y不相关(cov = 0) <=> X、Y独立
注意绝对值拆成两部分
求随机变量函数Z的密度,先看Z的取值范围
边缘密度的范围不应该带变量
泊松分布的和仍是泊松变量,或反向分解成多个泊松变量
独立时E[XY]=E[X]E[Y]可扩展
将事件A分解为等价的B交C
以上内容整理于
幕布文档