二項式分布

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA

Template:Infobox 機率分佈

概率论统计学中,二项分布Template:Lang-en)是一种离散概率分布,描述在进行独立随机试验时,每次试验都有相同概率“成功”的情况下,获得成功的总次数。掷硬币十次出现五次正面的概率、产品合格率99%时抽出一百件样本没有发现一件次品的概率等等,都可以由二项分布给出。

只有“成功”和“失败”两种可能结果,每次重复时成功概率不变的独立随机试验称作伯努利试验,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型,其前提在现实中无法完全得到满足,比如生产线会磨损,因此每件产品合格的概率并非固定Template:Sfn。尽管如此,二项分布给出的概率通常足以用于提供有用的推断;即使在已知前提没有满足的场合,二项分布也能用于参考和比较。二项分布的应用出现在遗传学质量控制等领域之中。Template:Sfn

定义

随机变量X概率质量函数

Pr(X=k)=(nk)pk(1p)nk(k=0,1,,n),

其中n正整数0p1,则称X服从参数n,p的二项分布Template:Sfn,记为XB(n,p)XBin(n,p)。习惯上1p也用q表示。Template:Sfn

推导

进行n独立伯努利试验的结果可以由n个字母表示,例如用S表示成功,F表示失败,则

SSFSF

表示五次试验中第一、二、四次的结果为成功,其余为失败。设每次试验成功的概率为p,失败的概率为1p。因为试验相互独立,每一种排列kSnkF的方式对应的概率为pk(1p)nkTemplate:Sfn

n个不同元素中选出含k个元素的子集的方法数量等于二项式系数

(nk)=n!k!(nk)!.Template:Sfn

而每种对kSnkF的排列都可理解为从n个位置中选出k个作为字母S的位置的方法,这种方法的数量即为(nk)。与每种排列方式对应的概率相乘,便得到定义中的概率

(nk)pk(1p)nk.Template:Sfn

历史

二项分布是最早得到研究的概率分布之一Template:Sfn。丹麦统计学家安德斯·哈爾德认为其历史可以追溯至布莱兹·帕斯卡皮埃尔·德·费马于1654年对点数分配问题的讨论:两名玩家赢得每局游戏的机会相同,赢得一定局数的胜者可获得奖金,但比赛仅进行了数局,尚未分出胜负就被迫中断,则奖金该如何分配?帕斯卡认为,奖金的分配应当基于玩家距离胜利所差的局数:若一名玩家还需r局获胜,另一名玩家还需s局获胜,则应考虑在r+s1局比赛的2r+s1种结果中,两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身,并未推导出二项分布的概率,但这一解法可被视作基于参数p=1/2的二项分布。Template:Sfn

对二项分布概率的推导为雅各布·伯努利于《Template:Tsl》中作出。该著作在他去世后,于1713年得到出版,被视作概率论的奠基性作品。伯努利还在其中首次给出了弱大数定律的严格证明Template:SfnTemplate:Sfn。对二项分布的正态近似则是由亞伯拉罕·棣莫弗发现,这一工作于1733年完成,于1738年出版在其著作《Template:Tsl》的第二版中。Template:Sfn

性质

参数为n,p的二项分布的期望值np方差np(1p)。其概率母函数

G(z)=(1p+pz)n,

矩母函数

MX(t)=(1p+pet)n,

特征函数

φX(t)=(1p+peit)n.Template:SfnTemplate:Sfn

参数n=1的二项分布称作伯努利分布Template:SfnTemplate:Tsl是二项分布的拓展,描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率Template:Sfn。二项分布本身是超几何分布的极限形式。Template:Sfn

二项分布的和

X1,X2两个随机变量独立,分别服从参数为n1,pn2,p的二项分布,则X1+X2即是在n1+n2次独立伯努利试验中取得成功的次数,所以X1+X2服从参数为n1+n2,p的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件X1+X2=k之下,随机变量X1条件概率分布是参数为k,n1,n1+n2的超几何分布。Template:Sfn

众数

计算Pr(X=k)Pr(X=k+1)的比值可以得到

Pr(X=k+1)Pr(X=k)=(nk)p(k+1)(1p)(k=0,1,,n1),

因此,当k<(n+1)p1时,Pr(X=k)k增加而上升;当k>(n+1)p1时,Pr(X=k)k增加而下降。故二项分布的众数(n+1)p下取整(n+1)p。若(n+1)p本身是整数,则(n+1)p(n+1)p1均是众数。若p<(n+1)1,则众数为0Template:Sfn

中位数

二项分布的中位数m位于np的上下取整之间,即npmnp;若np为整数,则中位数m=np。中位数m和期望值np之间的差满足

|mnp|<max{p,1p}.

p>ln2p<1ln2,则该上界可进一步缩减为

|mnp|<ln2.

n奇数p=1/2,则(n1)/2(n+1)/2均为中位数。Template:SfnTemplate:Sfn

累积分布函数

二项分布的累积分布函数和尾概率可以用正则化不完全贝塔函数表示为

Pr(Xk)=I1p(nk,k+1),
Pr(Xk)=Ip(k,nk+1).Template:Sfn

二项分布的r原点矩满足

μ'r=E[Xr]=j=0rS(r,j)n!pj(nj)!,

其中S(r,j)表示Template:Tsl斯特林数。具体而言,

μ'1=np,
μ'2=np+n(n1)p2,
μ'3=np+3n(n1)p2+n(n1)(n2)p3,
μ'4=np+7n(n1)p2+6n(n1)(n2)p3+n(n1)(n2)(n3)p4.

其低阶中心矩

μ2=np(1p),
μ3=np(1p)(12p),
μ4=3[np(1p)]2+np(1p)[16p(1p)].Template:Sfn

近似

正态近似

n=6p=0.5时的二项分布及其正态近似

标准二项分布

X=Xnpnp(1p)

n趋近于标准正态分布。这一结果称作Template:Tsl,为中心极限定理的特殊形式。基于这一定理可以得到

Pr(α<Xnpnp(1p)<β)Φ(β)Φ(α),

其中Φ为标准正态分布的累积分布函数Template:Sfn

正态分布为连续概率分布,在近似二项分布这类离散概率分布时,可将端点向外偏移0.5得到

Pr(Xk)Φ(k+0.5npnp(1p)),

从而提升近似的准确性,这种技巧称作Template:TslTemplate:Sfn。何时能采用这一近似依赖于使用经验法则,例如要求np(1p)>9,或是在p0.5时要求np>5、在p>0.5时要求n(1p)>5Template:SfnTemplate:Sfn

泊松近似

n,p0,而np保持不变时,二项分布趋近于参数为np泊松分布。以此为基础可以得到

Pr(Xk)enpj=0k(np)jj!.Template:Sfn

二项分布与其泊松近似之间的绝对误差存在上界。若随机变量X服从参数为n,p的二项分布,随机变量Y服从参数为np的泊松分布,则

k=0Pr(X=k)Pr(Y=k)min{2np2,3p}.Template:Sfn

参数估计

点估计

通常参数n为已知。假设随机变量X服从二项分布,其参数p未知。若观测到X的值为x,采用矩估计最大似然估计对参数p估计量均为xn,这一估计量为无偏的。Template:Sfn

参数pTemplate:Tsl取决于使用的先验分布。若使用连续型均匀分布作为先验分布,即假设01之间任意等长的区间包含p的概率都相同,则后验均值估计量为

p^=x+1n+2.

这被称作Template:Tsl,曾被皮埃尔-西蒙·拉普拉斯用于估计在太阳连续升起n天之后,太阳明天还会升起的概率。由于人类知道太阳在过去五千年,即1,826,213天都正常升起,拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。Template:Sfn

若使用参数为α,β贝塔分布作为先验分布,则后验均值估计量为

p^=α+x+1α+β+n+2.

采用贝塔分布作为先验分布时,后验分布亦是贝塔分布,即贝塔分布为二项分布的共轭先验Template:Sfn

区间估计

若要对参数p区间形式给出估计,通过求解

j=xn(nj)pLj(1pL)nj=α2,
j=0x(nj)pUj(1pU)nj=α2,

所得的区间(pL,pU)为一个置信水平近似为1α置信区间,称作克洛珀-皮尔逊区间(Template:Lang)。Template:Sfn

正态分布可以用于推导近似的置信区间。若用λα/2表示标准正态分布的第1α2分位数,即Φ(λα/2)=1α2,则区间两端的近似值为

xn±λα/2nxn(1xn).Template:SfnTemplate:Sfn

参见

注释

Template:Reflist

参考文献

Template:Refbegin

Template:Refend

Template:常见一元概率分布 Template:概率分布類型列表