概率分布

来自testwiki
跳转到导航 跳转到搜索

Template:NoteTA Template:Probability fundamentals 機率分布Template:Lang-en)簡稱分布,亦稱機率分配分配,是概率論中的一個概念。

Template:各地中文名

使用時可以有以下兩種含義:

  • 廣義地,它指稱:隨機變量的概率性質——當我們說概率空間(Ω,,)中的兩個隨機變量XY具有同樣的分布時,我們是無法用概率來區別他們的。換言之:

XY為同分布的隨機變量,當且僅當對任意事件A,有(XA)=(YA)成立。

但是,不能認為同分布的隨機變量是相同的隨機變量。事實上即使XY同分布,也可以没有任何點ω使得X(ω)=Y(ω)。在這個意義下,可以把隨機變量分類,每一類稱作一個分布,其中的所有隨機變量都同分布。用更簡要的語言來說,同分布是一種等價關係,每一個等價類就是一個分布。需注意的是,通常談到的離散分布均勻分布伯努利分布正態分布泊松分布等,都是指各種類型的分布,而不能視作一個分布。

FX(a)=(Xa),對任意實數a定義。

具有相同分布函數的隨機變量一定是同分布的,因此可以用分布函數來描述一個分布,但更常用的描述手段是概率密度函數Template:Notetag

分布函數的性質刻劃

對於特定的隨機變量 X,其分布函數FX是單調不減及右連續,而且FX()=0FX()=1。這些性質反過來也描述了所有可能成為分布函數的函數:

  • F:[,][0,1],F()=0,F()=1且單調不減、右連續,則存在概率空間(Ω,,)及其上的隨機變量 X ,使得 FX 的分布函數,即 FX=F

隨機變量的分布

P概率測度X隨機變量,則函數 F(x)=P(Xx),(x) 稱為 X 的概率分布函數。如果将 X 看成是数轴上的随机点的坐标,那么,分布函数 F(x)x 处的函数值就表示 X 落在区间 (,x] 上的概率。

例如,設隨機變量 X 為擲兩次骰子所得的點數差,而整个樣本空間由 36 个元素组成。

数量 ( i , j )∈ S x P(X=x) F(x)
6 ( 1,1 ),( 2,2 ),( 3,3 )
( 4,4 ),( 5,5 ),( 6,6 )
0 6/36 6/36
10 ( 1,2 ),( 2,3 )
( 3,4 ),( 4,5 ),( 5,6 )
( 2,1 ),( 3,2 ),( 4,3 )
( 5,4 ),( 6,5 )
1 10/36 16/36
8 ( 1,3 ),( 2,4 ),( 3,5 )
( 4,6 ),( 3,1 ),( 4,2 )
( 5,3 ),( 6,4 )
2 8/36 24/36
6 ( 1,4 ),( 2,5 ),( 3,6 )
( 4,1 ),( 5,2 ),( 6,3 )
3 6/36 30/36
4 ( 1,5 ),( 2,6 )
( 5,1 ),( 6,2 )
4 4/36 34/36
2 ( 1,6 ),( 6,1 ) 5 2/36 36/36

其分布函数是:

F(x)={0,x<06/36,x<116/36,x<224/36,x<330/36,x<434/36,x<51,x5

离散機率分布族

上面所列举的例子属于离散分布,即分布函数的值域離散的,比如只取整數值的隨機變量就是屬於離散分布的。F(x)表示随机变量Xx的概率值。如果X的取值只有x1<x2<...<xn,則:

  • FX(xi)=j=1iP(xj)
  • k=1nP(xk)=1


其他常見的離散機率分布族有:

伯努利分布

Template:Main

二项式分布

Template:Main

二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为p,那么在n次试验中出现k次的概率为:

f(n,k,p)=(nk)pk(1p)nk

例如,在掷3次骰子中,不出现6点的概率是:f(3,0,16)=(30)(16)0(56)3=0.579
在连续两次的轮盘游戏中,至少出现一次红色的概率为:f(2,1,1837)+f(2,2,1837)=0.736

二项分布在p=0.5时的对称性 ( 自变量为k )

二项分布在p=0.5时表现出图像的对称性,而在p取其它值时是非对称的。另外二项分布的期望值E(X)=np,以及方差var(X)=np(1p)

几何分布

Template:Main

負二項式分布

Template:Main

超几何分布

Template:Main

作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有N个球,其中M个黑球,(NM)个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的n个球中(抽出的球不放回去)有k个黑球的概率是多少:

f(k,n;M;N):=(Mk)(NMnk)(Nn)

例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是: f(k=3)=(63)(10653)(105)=0.476

超几何分布与二项式分布的关系

二項式分布不同的是,在超几何分布中,特別强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数n和总共样品数N相比很小(大约n/N<0.05),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。

Poisson分布

Template:Main

Poisson近似是二项分布的一種極限形式。其强调如下的试验前提:一次抽样的概率值p相对很小,而抽取次数n值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p,那么在n次试验中出现k次的概率按照泊松分布应该为:

f(n,k,p)=(np)kenpk!

其中,数学常数e=2.71828...(自然對數的底数)
例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:f(100,0,1200)+f(100,1,1200)+f(100,2,1200)=0.986

在实践中如果遇到n值很大導致二项分布難於計算时,可以考慮使用泊松分布,但前提是np必須趨於一個有限极限Template:请求来源Template:Fact是:

  1. n100
  2. p0.1

離散均匀分布

Template:Main

連續機率分布族

X是具有分布函数F连续随机变量,且F的一階導數處處存在,則其導函數

f(x)=dF(x)dx

称为X機率密度函数
每个機率密度函数都有如下性质:

  • f(x)dx=1
  • abf(x)dx=P(aXb)=F(b)F(a)

第一个性质表明,機率密度函数与x轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间[a,b]的概率值等于密度函数在区间[a,b]上的积分,也即是与X轴在[a,b]内形成的区域的面积。因为0F(x)1,且f(x)F(x)的导数,因此按照积分原理不难推出上面两个公式。

正态分布指数分布t-分布,F-分布以及χ2-分布都是連續分布。


常見的連續機率分布族有:

均匀分布

Template:Main

正态分布

Template:Main

连续随机变量的機率密度函数如果是如下形式,

f(x)=1σ2πe(12(xμσ)2)

那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中μ平均值σ标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,常態機率密度函数具有和普通機率密度函数类似的性质:

  • f(t)dt=1
  • F(x)=1σ2πxe(12(tμσ)2)dt

如果给出一个正态分布的平均值μ以及标准差σ,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助z-变换以及标准正态分布表格(z-表格)。

中间值μ=0以及标准差σ=1的正态分布被称之为标准正态分布,其累積分布函数是

Φ(z)=12πze12t2dt

将普通形式的正态分布变换到标准正态分布的方法是

z=xμσ

例如,已知X服從正态分布,且μ=5σ=3,求区间概率值P(4<X7)。计算过程如下:

設另一隨機變量Z=X53,則Z服從標準常態分佈,且

4<X7453<Z7531/3<Z2/3,

所以

P(4<X7)=P(1/3<Z2/3)=Φ(2/3)Φ(1/3)0.74750.3694=0.3781,

其中Φ(z)值通过查z-表格获得。

正态分布与二项分布的关系

在离散分布中如果试验次数n值非常大,而且单次试验的概率p值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:np(1p)9
从二项分布中获得μσ值的方法是

  • 期望值μ=np
  • 標準差σ=np(1p)

如果σ>3,则必须采用下面的近似修正方法:

P(x1Xx2)=k=x1x2(nk)pk(q)nkEFΦ(x2+0.5μσ)Φ(x10.5μσ)ZF

(注:q=1p;EF:二项分布;ZF:正态分布)

上(下)临界值分别增加(减少)修正值0.5的目的是在σ值很大时获得更精确的近似值,只有σ很小时,修正值0.5可以不被考虑。

例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,

μ=np=640.5=32
σ=np(1p)=640.50.5=4

npq=169,符合近似规则,应用z-变换:

P(32X42)Φ(42+0.5324)Φ(320.5324)
=Φ(2.63)Φ(0.13)=0.0517+0.4957=0.5474
标准正态分布N(0,1)下的z-表格

在运用z-表格时注意到利用密度函数的对称性来求出z为负值时的区域面积。


伽瑪分布

Template:Main

指数分布

Template:Main

其他連續型常用分布

貝它分布

Template:Main

雙指數分布

Template:Main

對數常態分布

Template:Main

柏拉圖分布

Template:Main

柯西分布

Template:Main

多元常態分布

Template:Main

参考文献

Template:Reflist Template:Refbegin

  • 彼得·缺菲尔(Peter Zoefel):《统计和经济学家》Template:De icon. PEASON Studium出版社,2003年. ISBN 3-8273-7062-0.
  • 约瑟夫·西拉(Josef Schira):《统计理论与企业管理》Template:De icon. PEASON Studium出版社,2003年. ISBN 3-8273-7041-8.
  • 汉斯-底特·黑伯曼(Hans-Dieter Hippmann):《统计学》Template:De icon. SCHAEFFER POESCHEL出版社,2003年. ISBN 3-7910-2119-2.

Template:Refend

參見

注释

Template:Notefoot

外部链接

概率分布Java演示

Template:- Template:概率分布 Template:概率分布理论 Template:統計學 Template:常见一元概率分布

Template:Authority control