随机变量的收敛

来自testwiki
imported>InternetArchiveBot2025年3月8日 (六) 23:13的版本 (Add 2 books for verifiability (20250307)) #IABot (v2.0.9.5) (GreenC bot
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

Template:NoteTA 概率论中有若干关于随机变量收敛(Convergence of random variables)的定义。研究一随机变量是否会收敛到某个极限随机变量是概率论中的重要内容,在统计概率随机过程中都有应用。在更广泛的数学领域中,随机变量的收敛被称为随机收敛,表示一系列本质上随机不可预测的事件所发生的模式可以在样本数量足够大的时候得到合理可靠的预测。各种不同的收敛定义实际上是表示预测时不同的刻画方式。

简介

正如一个数列可能收敛到某个极限量,一列函数可能收敛到某个极限函数一样,随机收敛指的是一系列随机变量(Xn;n)n趋向于无穷大时,会越来越接近某个固定的极限。这个极限可能是指:

  1. Xn趋向某个固定的数;
  2. Xn趋向某个确定函数的输出值;
  3. Xn概率分布越来越接近某个特定的随机变量的概率分布;
  4. Xn和某个特定随机变量的差别的平均值(数学期望值)趋向于0;
  5. Xn和某个特定随机变量的差别的方差趋向于0。

等等。这些不同的极限的定义,可以严格地写成不同的收敛方式的定义。

依概率1收敛

依概率1收敛又称为几乎处处收敛,其定义接近于函数逐点收敛的定义。事实上,由于随机变量的本质是由样本空间Ω到取值空间𝔅上的函数。因此,给定一个概率空间 (Ω,,)中的一列 随机变量(Xn;n),考虑事件AX={ω;limnXn(ω)=X(ω)}。如果存在一个随机变量X,使得事件AX的概率为1,那么就称随机变量序列 (Xn;n) 依概率1收敛到 X(或称 (Xn;n) 几乎处处收敛到 X),记作:

Xna.s.X(limnXn=X)=1

当取值空间𝔅是一般的实数空间时,依概率1收敛的意义是:

对任意的正实数ε>0(lim inf{ωΩ:|Xn(ω)X(ω)|<ε})=1

当空间𝔅度量空间 (S, d) 的时候,依概率1收敛的意义是:

(ωΩ:d(Xn(ω),X(ω))n0)=1

依概率收敛

Template:Main(Xn;n) 是一个随机变量序列,X是一个随机变量。如果对于任意的正实数ϵ>0,都有:

limn(|XXn|ϵ)=0

那么称序列(Xn;n) 依概率收敛到X,记作:XnnX

如果(Xn;n)的取值空间是一个可分度量空间(Sd),那么依概率收敛的定义为[1]

(d(Xn,X)ε)0,ε>0.

依概率收敛和依概率1收敛的定义有相似之处,但本质上,依概率1收敛是比依概率收敛更“强”的收敛性质。如果一列随机变量依概率1收敛到某个极限,那么它必然也依概率收敛到这个极限,但反之则不然。一个实数上的例子是:设概率空间 (Ω,,)区间Ω=[0,1)上的一个连续型均匀分布=𝐔 。一个随机变量序列(Xn;n)定义为:

X1=𝟏{ω[0,1)}=𝟏
X2=𝟏{ω[0,12)},X3=𝟏{ω[12,1)}
X4=𝟏{ω[0,14)},X5=𝟏{ω[14,12)},X6=𝟏{ω[12,34)},X7=𝟏{ω[34,1)}



(k,m),0k2m1,X2m+k=𝟏{ω[k2m,k+12m)}

由于

2mn2m+11,(|Xn0|ε)=12m

所以

Xn0

另一方面,考虑X2mX2m+11这一组随机变量,它们取值为1的集合的并集恰好是总区间,因此对每一个ω[0,1),总会有X2mX2m+11之间的某个变量X2m+km,使得

X2m+km(ω)=1

所以,对任意一个ω[0,1)

limn|Xn(ω)0|0

即是说,(Xn;n) 并不依概率1收敛到0。从例子中可以看到,依概率收敛比依概率1收敛更为宽松的地方是:当n趋于无穷大的时候,只要偏离极限函数的ω(即是集合{ωn;|Xn(ωn)X(ωn)|ε}中的ωn)“足够少”,就能使得依概率收敛成立了,这些ωn的集合可以随着n不同而不同;而依概率1收敛则要求ωn的集合固定地缩减至一个概率为0的集合。因此,依概率1收敛要比依概率收敛更为严格。

性质

  • 依概率收敛蕴含依分布收敛:一个依概率收敛的随机变量序列必然也依分布收敛到同一个极限。
  • 在离散概率空间中,依概率收敛和依概率1收敛是等价的。
  • 依分布收敛蕴含依概率收敛当且仅当依分布收敛的极限是一个常数。
  • 连续映射定理说明:对任意连续函数g,如果随机变量序列(Xn;n)依概率收敛到X,那么序列(g(Xn);n)依概率收敛到g(X)
  • 依概率收敛定义了确定概率空间上的随机变量空间上的一个拓扑。这个拓扑可以用樊𰋀度量进行度量化[2]
    d(X,Y)=inf{ε>0: Pr(|XY|>ε)ε}.

平方平均收敛与𝐋p收敛

另一种收敛的定义与测度的积分有关。在积分理论中,如果两个函数fg满足(fg)2dμ=0,那么这两个函数在关于测度μ的平方可积空间中相等。随机变量的平方平均收敛与此相似:如果对平方可积的随机变量序列(Xn;n),存在随机变量X,使得limn𝔼[(XnX)2]=0,那么就说序列(Xn;n) 平方平均收敛到X,记作:

Xn𝐋2X

由于𝐋2空间是完备的,极限X也一定平方可积。

对于更一般的𝐋p空间,也有类似的定义:如果对 𝐋p空间中的随机变量序列(Xn;n),存在𝐋p中的随机变量X,使得limn𝔼[|XnX|p]=0,那么就说序列(Xn;n)𝐋p收敛到X,记作:

Xn𝐋pX

当常数p=1时,也称为平均收敛。

依分布收敛

依分布收敛是最宽松的收敛方式之一。这种收敛不要求查看每个ω,只要求序列的分布趋向于某个极限。直觉上,一个随机变量序列(Xn;n)依分布收敛到某个随机变量X,如果:

对所有的a,都有(Xna)(Xa)

更严格的定义是探讨随机变量Xn累积分布函数Fn(x)=(Xnx)。设有实值的随机变量序列 (Xn;n) 和某个随机变量X(其累积分布函数为 F(x)),如果对F(x)的每个连续点x,都有limnFn(x)=F(x),那么就说 (Xn;n)依分布收敛到某个随机变量X。记作:

Xnn𝒟XXnn𝑑XXnnX

由于依分布收敛只和随机变量的分布相关,所以也可以称一系列随机变量(依分布)收敛于某个分布。设X是极限X的分布,那么依分布收敛也可以记作:

Xn d X,XnX(Xn)(X)

例如一个随机变量序列(Xn;n)依分布收敛到标准正态分布,就可以记作:

Xn d 𝒩(0,1).

性质

  • 作为最弱的收敛方式之一,依分布收敛无法推出其它的收敛方式。对于存在概率密度函數的连续型随机变量序列,依分布收敛并不能推出其概率密度函数也同样收敛。例如对于概率密度函數为fn(x)=(1cos(2πnx))𝟏x(0,1)的随机变量序列,其依分布收敛到均匀分布的随机变量,但其概率密度函数不收敛[3]
  • 依分布收敛的等价定义:一个随机变量序列(Xn;n)依分布收敛到某个随机变量X和以下命题中的任意一个等价:
    • 对所有的有界连续函数f,都有: 𝔼[f(Xn)]𝔼[f(X)]
    • 对所有具有利普希茨連續性质的函数f,都有: 𝔼[f(Xn)]𝔼[f(X)]
    • 对所有上有界的上半连续函数f,都有: lim sup𝔼[f(Xn)]𝔼[f(X)]
    • 对所有下有界的下半连续函数f,都有: lim inf𝔼[f(Xn)]𝔼[f(X)]
    • 对所有闭集C,都有: lim supn(XnC)(XC)
    • 对所有开集U,都有: lim infn(XnU)(XU)
    • 对关于X的所有连续集A,都有: limn(XnA)=(XA)
  • 连续映射定理说明,对于连续函数g(·),如果随机变量序列 (Xn;n)依分布收敛到随机变量X,那么 (g(Xn);n)也依分布收敛到随机变量g(X)
  • 列维连续性定理: 随机变量序列(Xn;n)依分布收敛到某个随机变量X 当且仅当对应的特征函数序列(φn(x);n)逐点收敛到某个在0处连续的函数φ(此时随机变量X的分布为φ)。
  • 列维-普罗科洛夫度量是依分布收敛的度量化结果。

关系

各个收敛的定义有强弱之分。一个收敛性强于另一个是指从前者可以推出后者。例如依概率收敛强于依分布收敛,即是说如果一列随机变量依概率收敛到某个极限,那么必定也依分布收敛到这个极限。具体来说,收敛性的强弱关系可以用下图来表示:

Lrr>s1Lsa.s. p  d