负二项分布

来自testwiki
imported>Chen-Pan Liao2024年9月11日 (三) 17:10的版本 幾何分布:​ // Edit via Wikiplus)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

Template:NoteTA Template:機率分佈

負二項分布(Negative binomial distribution)是統計學上一種描述在一系列独立同分布的伯努利试验中,成功次数达到指定次数(记为r)时失败次数的離散概率分布。比如,如果我们定义掷骰子随机变量x值为x=1时成功,所有x1为失败,这时我们反复掷骰子直到1出现3次(成功次数r=3),此时非1数字出现次数的概率分布即为负二项分布。

帕斯卡分布Pascal distribution,来自布莱兹·帕斯卡 (Blaise Pascal))和波利亚分布Polya distribution,又称罐子模型,来自喬治·波利亞 (George Pólya))均是负二项分布的特例。在工程、气候等领域中经常用“负二项分布”或“帕斯卡分布”来描述变量r为整数的情况,而使用“波利亚分布”来描述r取到实数值R的情况。

对于“相关的离散事件”("associated discrete events")的发生,例如龙卷风爆发,相比于泊松分布,波利亚分布由于允许其平均值方差不同,而能够给出更精确的模型。在流行病学中,它已被用于模拟传染病的疾病传播,其中可能的继发感染数量可能因个体和环境而异[1]。 更一般地说,由于正协方差项,事件具有正相关的事件导致比独立事件更大的方差可能是合适的。

“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到r次成功时即终止的独立试验中,失败次数k的分布。

术语“负二项式”可能是因为出现在分布的概率质量函数公式中的某个二项式系数可以用负数更简单地写出[2]

定义

若每次伯努利试验有两种可能的结果,分别为成功或者失败。在每次试验中,成功的概率为p,失败的概率为1p。反复进行该伯努利试验,直到观察到第r次成功发生。此时试验失败次数X的分布即为负二项分布(或称帕斯卡分布),那么:

若随机变量𝑋服从参数为𝑟𝑝的负二项分布,则记为XNB(r,p).

在实际生活中,我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布。此时,“成功”的事件可以指机器正常工作一天,“失败”的事件可以指机器故障的一天。如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布,此时,“失败”的事件指运动员的一次尝试,“成功”的事件指运动员获取一枚奖牌。如果使用负二项分布来描述掷一枚硬币出现r次正面前,出现硬币反面的次数的分布,“成功”的事件指出现硬币的正面,“失败”的事件指出现硬币的反面。

概率质量函数

帕斯卡分布

r 是整數時的負二項分布又稱帕斯卡分布,其概率質量函數為:

f(k;r,p)Pr(X=k)=(k+r1r1)pr(1p)kfor k=0,1,2,

其中 k 是失败的次数, r 是成功的次数, p 是事件成功的概率。在负二项分布的概率质量函数中,由于 k+r 次伯努利试验为独立同分布,每个成功 r 次、失败 k 次的事件的概率为pr(1p)k。由于第 r 次成功一定是最后一次试验,所以应该在k+r1次试验中选择r1次成功,使用排列组合二项系数获取所有可能的选择数。

二项系数与负二项名称来源

括号中为二项式系数表达式:

(k+r1r1)=(k+r1)!k!(r1)!=(k+r1)(k+r2)(r)k!

该表达式可以写成带负值参数的二项系数的形式,如下式所示,解释了“负二项”名称的来源:

(k+r1)(r)k!=(1)k(r)(r1)(r2)(rk+1)k!=(1)k(rk).

概率质量函数对所有可能k值求和为1

帕斯卡分布概率质量函数f(k;r,p)对所有可能 k 值求和,一定等于1:

k=0(k+r1k)prqk=1

证明如下:

1=prpr=pr(1q)r=prk=0(rk)(q)k=prk=0(1)k(rk)qk=k=0(k+r1k)prqk

其中第三步用到了二项序列展开。

几何分布

r=1,負二項分布等於幾何分布。其概率質量函數為f(k;1,p)=p(1p)k

例子

舉例說,若我們擲骰子,擲到一即視為成功。則每次擲骰的成功率是16。要擲出三次一,所需的擲骰次數屬於集合{ 3, 4, 5, 6, ... }。擲到三次一的擲骰次數是負二項分布的隨機變數。要在第三次擲骰時,擲到第三次一,則之前兩次都要擲到一,其機率為(16)3。注意擲骰是伯努利試驗,之前的結果不影響隨後的結果。

若要在第四次擲骰時,擲到第三次一,則之前三次之中要有剛好兩次擲到一,在三次擲骰中擲到2次1的機率為(331)(56)(16)2。第四次擲骰要擲到一,所以要將前面的機率再乘16((1+3)131)(16)3(56)

相关分布

几何分布(在 { 0, 1, 2, 3, ... } 上)是负二项分布的一个特例,其中

Geom(p)=NB(1,1p).

參見

参考文献

Template:Reflist

Template:- Template:概率分布类型列表

  1. e.g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. Template:Doi
    The overdispersion parameter is usually denoted by the letter k in epidemiology, rather than r as here.
  2. Template:Cite book