耿贝尔分布

来自testwiki
跳转到导航 跳转到搜索

Template:RoughTranslation Template:Infobox 機率分佈

概率论统计学中,耿贝尔分布Gumbel分布,也称为I 型广义极值分布)用于对各种分布的多个样本的最大值(或最小值)的分布进行建模。

如果有过去十年的水位最大值列表,则此分布可用于表示特定年份河流最高水位的分布。它有助于预测发生极端地震、洪水或其他自然灾害的可能性。 耿贝尔分布表示最大值分布的潜在适用性与极值理论有关,这表明如果基础样本数据的分布是正态或指数类型,它可能是有用的。本文使用耿贝尔分布对最大值的分布进行建模。要对最小值建模,请使用原始值的负值。

耿贝尔分布是广义极值分布(也称为 Fisher-Tippett 分布)的一个特例。它也称为对数Weibull 分布和双指数分布(该术语有时也用于指代拉普拉斯分布)。它与Gompertz分布有关:在原点附近,并限制在正半线上时,就得到了 Gompertz 函数。

多项式logistic回归模型的潜变量公式中——在离散选择法理论中很常见——潜在变量的误差服从 Gumbel 分布。这很有用,因为两个耿贝尔分布的随机变量的差服从logistic分布

耿贝尔分布以Emil Julius Gumbel (1891 – 1966) 的名字命名,来自描述该分布的原始论文。 [1] [2]

定义

耿贝尔分布的累积分布函数

F(x;μ,β)=ee(xμ)/β.

标准耿贝尔分布

标准的耿贝尔分布是μ=0β=1时的特例,其累积分布函数为

F(x)=ee(x)

概率密度函数为

f(x)=e(x+ex).

此时,众数为 0,中位数为ln(ln(2))0.3665,均值为γ0.5772歐拉-馬斯刻若尼常數),标准差为π/61.2825

对于 n>1,累积量由下式给出

κn=(n1)!ζ(n)

特性

众数为 μ,中位数为μβln(ln2),平均值是

E(X)=μ+γβ ,

其中γ歐拉-馬斯刻若尼常數

标准差 σβπ/6,因此β=σ6/π0.78σ. [3]

在众数处,x=μF(x;μ,β)的值变为e10.37 ,与β的取值无关。

相关分布

  • 如果X具有耿贝尔分布,则Y= − X的条件分布在Y为正的情况下,或等效地在X为负的情况下具有Gompertz分布Y的 cdf GX的 cdf F相关,公式如下G(y)=P(Yy)=P(Xy|X0)=(F(0)F(y))/F(0)要求y > 0。因此,两者概率密度函数相关:g(y)=f(y)/F(0) : Gompertz 密度与反射的 Gumbel 密度成正比,仅限于正半线。 [4]
  • 如果X是均值为 1 的指数分布变量,则− log( X ) 服从标准 Gumbel 分布。
  • 如果XGumbel(αX,β)YGumbel(αY,β)是独立的,那么XYLogistic(αXαY,β) (见Logistic分布)。
  • 如果X,YGumbel(α,β)是独立的,那么X+YLogistic(2α,β) 。注意E(X+Y)=2α+2βγ2α=E(Logistic(2α,β)) 。更一般地,独立 Gumbel 随机变量的线性组合的分布可以用 GNIG 和 GIG 分布来近似。 [5]

广义多变量对数伽马分布相关的理论提供了耿贝尔分布的多变量版本。

应用

具有累积耿贝尔分布置信带的十月最大单日降雨量分布拟合[6]

Gumbel 表明,随着样本量的增加,将服从指数分布随机变量减去样本量[7]的自然对数,其最大值的分布(或最后一阶统计量)接近耿贝尔分布。 [8]

具体来说,如果令ρ(x)=exx的概率分布,Q(x)=1ex是其累积分布,那么对xN次实现(realizations)的最大值小于X当且仅当所有x的实现都小于X 。所以最大值的累积分布x~满足:

P(x~log(N)X)=P(x~X+log(N))=[Q(X+log(N))]N=(1eXN)N

并且,对于较大的N,等式右边收敛到ee(X)

因此,在水文学中,耿贝尔分布用于分析日降雨量和河流流量的月度和年度最大值等变量, [3]也用于描述干旱。 [9]

Gumbel 还表明,表示事件的概率估计量Template:Frac——其中r是观察值在数据序列中的排名, n是观察的总数——是分布的众数周围的累积分布函数无偏估计量。因此,这个估计量经常被用作分位图

数论中,耿贝尔分布近似于随机整数分拆的项数[10]以及最大素数间隙和素数星座之间的最大间隙的趋势调整大小。 [11]

Gumbel 重参数化技巧

机器学习中,耿贝尔分布有时用于从分类分布中生成样本。这种技术称为“Gumbel-max技巧”,是“重参数化技巧”的一个特例。 [12]

具体而言,令(π1,...,πn)非负且不全为零,并且让g1,...,gn是Gumbel(0, 1)的独立样本,则Pr(j=argmaxi(gi+logπi))=πjiπi因此, argmaxi(gi+logπi)Categorical(πjiπi)j

等价地,给定任何x1,...,xn ,我们可以从它的玻尔兹曼分布中采样:Pr(j=argmaxi(gi+xi))=exjiexi相关等式包括: [13]

  • 如果xExp(λ) , 那么(lnxγ)Gumbel(γ+lnλ,1)
  • argmaxi(gi+logπi)Categorical(πjiπi)j
  • maxi(gi+logπi)Gumbel(γ+log(iπi),1) 。也就是说,Gumbel 分布是一个最大稳定分布族。
  • 𝔼[maxi(gi+βxi)]=log(ieβxi)

随机变量生成

Template:Further 耿贝尔分布的分位数函数(逆累积分布函数Q(p)可由下式给出

Q(p)=μβln(ln(p)),

其中μβ是参数,当随机变量U是从(0,1) 上的均匀分布中抽取时,变量Q(U)具有服从耿贝尔分布。

概率纸

一张包含 Gumbel 分布的方格纸。

在软件时代之前,人们使用概率纸描绘耿贝尔分布(见插图)。这种纸基于累积分布函数的F的线性化:

ln[ln(F)]=(xμ)/β

在纸上,水平轴以双对数刻度构建。垂直轴是线性的。通过在纸张的水平轴上寻找F,在垂直轴上寻找 x ,耿贝尔分布由斜率为1/β 的直线表示。当像CumFreq这样的分布拟合软件可用时,绘制分布的任务变得更加容易。

参见

参考资料

  1. Template:Citation
  2. Gumbel E.J. (1941). "The return period of flood flows". The Annals of Mathematical Statistics, 12, 163–190.
  3. 3.0 3.1 Template:Cite book
  4. Template:Cite journal
  5. Template:Cite journal
  6. CumFreq, software for probability distribution fitting
  7. Template:Cite web
  8. Template:Cite book
  9. Template:Cite journal
  10. Template:Cite journal
  11. Template:Cite journal Article 13.5.2.
  12. Template:Cite conference
  13. Template:Cite journal

外部链接

Template:Commons and categoryTemplate:概率分布