卜瓦松分布

泊松分布（Template:Lang-fr；Template:Lang-en）又稱Poisson分布、-{zh-cn:帕松; zh-tw:泊松; zh-hk:帕松;}-分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小數法則（Poisson law of small numbers），是一種統計與概率學裡常見到的離散機率分布，由法國數學家西莫恩·德尼·泊松在1838年時發表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、雷射的光子數分布等等。（單位時間內發生的次數，可以看作事件發生的頻率，類似物理的頻率 $f$ ）。

泊松分布的機率質量函数为：

P (X = k) = \frac{e^{- λ} λ^{k}}{k!}

泊松分布的参数 $λ$ 是随机事件发生次数的数学期望值。

记号

若 $X$ 服从参数为 $λ$ 的泊松分布，记为 $X \sim π (λ)$ ，或记为 $X \sim Poisson (λ)$ .

假设

如果以下假设成立，则适用泊松分布：

1、k 是一个非负整数，是某个事件在某个时间间隔内发生的次数。

2、一个事件的发生不会影响第二个事件的概率。

3、事件发生的平均速率与任何事件的发生无关。

4、两个事件不可能在同一时刻发生。

如果这些条件成立，则 k 是泊松随机变量；k 的分布是泊松分布。

性质

1、服从泊松分布的随机变量，其数学期望与方差相等，同为参数 $λ$ : $E (X) = V (X) = λ$

2、兩個獨立且服从泊松分布的随机变量，其和仍然服从泊松分布。更精確地說，若 $X \sim Poisson (λ_{1})$ 且 $Y \sim Poisson (λ_{2})$ ，則 $X + Y \sim Poisson (λ_{1} + λ_{2})$ 。反過來若兩個獨立隨機變量的和服從卜瓦松分布，則這兩個隨機變量經平移後皆服從卜瓦松分布（Template:Le）。

3、其動差母函數为：

M_{X} (t) = E [e^{t X}] = \sum_{x = 0}^{\infty} e^{t x} \frac{e^{- λ} λ^{x}}{x!} = e^{- λ} \sum_{x = 0}^{\infty} \frac{(e^{t} λ)^{x}}{x!} = e^{λ (e^{t} - 1)}

推導

期望值：(倒數第三至第二是使用泰勒展開式)

$\begin{matrix} E (X) & = \sum_{i = 0}^{\infty} i P (X = i) \\ = \sum_{i = 1}^{\infty} i \frac{e^{- λ} λ^{i}}{i!} \\ = λ e^{- λ} \sum_{i = 1}^{\infty} \frac{λ^{i - 1}}{(i - 1)!} \\ = λ e^{- λ} \sum_{i = 0}^{\infty} \frac{λ^{i}}{i!} \\ = λ e^{- λ} e^{λ} \\ = λ \end{matrix}$

$\begin{matrix} E (X^{2}) & = \sum_{i = 0}^{\infty} i^{2} P (X = i) \\ = \sum_{i = 1}^{\infty} i^{2} \frac{e^{- λ} λ^{i}}{i!} \\ = λ e^{- λ} \sum_{i = 1}^{\infty} \frac{i λ^{i - 1}}{(i - 1)!} \\ = λ e^{- λ} \sum_{i = 1}^{\infty} \frac{1}{(i - 1)!} \frac{d}{d λ} (λ^{i}) \\ = λ e^{- λ} \frac{d}{d λ} [\sum_{i = 1}^{\infty} \frac{λ^{i}}{(i - 1)!}] \\ = λ e^{- λ} \frac{d}{d λ} [λ \sum_{i = 1}^{\infty} \frac{λ^{i - 1}}{(i - 1)!}] \\ = λ e^{- λ} \frac{d}{d λ} (λ e^{λ}) = λ e^{- λ} (e^{λ} + λ e^{λ}) = λ + λ^{2} \end{matrix}$

我們可以得到： $V a r (X) = (λ + λ^{2}) - λ^{2} = λ$

如同性質： $E (X) = V a r (X) = λ$ 、 $σ_{X} = \sqrt{λ}$ Template:-

相互獨立的卜瓦松分佈隨機變數之和仍服從卜瓦松分佈：

$X \sim Poisson (λ_{1}), Y \sim Poisson (λ_{2}) .$

$P (X = k_{1}) = \frac{λ_{1}^{k_{1}} e^{- λ_{1}}}{k_{1}!}, P (Y = k_{2}) = \frac{λ_{2}^{k_{2}} e^{- λ_{2}}}{k_{2}!} .$

$\begin{matrix} P (X + Y = k) & = \sum_{i = 0}^{k} P (X = i) P (Y = k - i) \\ = \sum_{i = 0}^{k} \frac{λ_{1}^{i} λ_{2}^{k - i} e^{- (λ_{1} + λ_{2})}}{i! (k - i)!} \\ = \frac{e^{- (λ_{1} + λ_{2})}}{k!} \sum_{i = 0}^{k} C_{k}^{i} λ_{1}^{i} λ_{2}^{k - i} \\ = \frac{e^{- (λ_{1} + λ_{2})} (λ_{1} + λ_{2})^{k}}{k!} \end{matrix}$

$X + Y \sim Poisson (λ_{1} + λ_{2})$

泊松分布的来源（泊松小数定律）

在二项分布的伯努利试验中，如果试验次数 $n$ 很大，二项分布的概率 $p$ 很小，且乘积 $λ = n p$ 比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散時間上的对应物。

证明如下。首先，回顾自然對數 $e$ 的定义：

\lim_{n \to \infty} {(1 - \frac{λ}{n})}^{n} = e^{- λ},

二项分布的定义：

P (X = k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}

。

如果令 $p = \frac{λ}{n}$ ， $n$ 趋于无穷时 $P$ 的极限：

\begin{matrix} \lim_{n \to \infty} P (X = k) & = \lim_{n \to \infty} (\binom{n}{k}) p^{k} (1 - p)^{n - k} \\ = \lim_{n \to \infty} \frac{n!}{(n - k)! k!} {(\frac{λ}{n})}^{k} {(1 - \frac{λ}{n})}^{n - k} \\ = \lim_{n \to \infty} \underset{F}{\underset{⏟}{[\frac{n!}{n^{k} (n - k)!}]}} (\frac{λ^{k}}{k!}) \underset{\to \exp (- λ)}{\underset{⏟}{{(1 - \frac{λ}{n})}^{n}}} \underset{\to 1}{\underset{⏟}{{(1 - \frac{λ}{n})}^{- k}}} \\ = \lim_{n \to \infty} \underset{\to 1}{\underset{⏟}{[(1 - \frac{1}{n}) (1 - \frac{2}{n}) \dots (1 - \frac{k - 1}{n})]}} (\frac{λ^{k}}{k!}) \underset{\to \exp (- λ)}{\underset{⏟}{{(1 - \frac{λ}{n})}^{n}}} \underset{\to 1}{\underset{⏟}{{(1 - \frac{λ}{n})}^{- k}}} \\ = (\frac{λ^{k}}{k!}) \exp (- λ) \end{matrix}

最大似然估計（MLE）

给定 $n$ 个样本值 $k_{i}$ ，希望得到从中推测出总体的泊松分布参数 $λ$ 的估计。为计算最大似然估计值，列出对数似然函数：

\begin{matrix} L (λ) & = \ln \prod_{i = 1}^{n} f (k_{i} ∣ λ) \\ = \sum_{i = 1}^{n} \ln (\frac{e^{- λ} λ^{k_{i}}}{k_{i}!}) \\ = - n λ + (\sum_{i = 1}^{n} k_{i}) \ln (λ) - \sum_{i = 1}^{n} \ln (k_{i}!) . \end{matrix}

\frac{d}{d λ} L (λ) = 0 ⟺ - n + (\sum_{i = 1}^{n} k_{i}) \frac{1}{λ} = 0 .

解得λ从而得到一个驻点（stationary point）：

{\hat{λ}}_{M L E} = \frac{1}{n} \sum_{i = 1}^{n} k_{i} .

检查函数 $L$ 的二阶导数，发现对所有的 $λ$ 与 $k_{i}$ 大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数 $L$ 的极大值点：

\frac{\partial^{2} L}{\partial λ^{2}} = \sum_{i = 1}^{n} - λ^{- 2} k_{i}

例子

对某公共汽车站的客流做调查，统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟*3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计（MLE），得到 $λ$ 的估计为 $\frac{81 \times 1 + 34 \times 2 + 9 \times 3 + 6 \times 4}{230} \approx 0.87$ 。

生成泊松分布的随机变量

一个用来生成随机泊松分布的数字（伪随机数抽样）的简单算法，已经由高德纳给出（见下文参考）：

algorithm poisson random number (Knuth):
    init:
         Let L ← e^−λ, k ← 0 and p ← 1.
    do:
         k ← k + 1.
         Generate uniform random number u in [0,1] and let p ← p×u.
    while p > L.
    return k − 1.

尽管简单，但复杂度是线性的，在返回的值 $k$ ，平均是 $λ$ 。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出，请参阅下面的参考资料。同样，对于较大的 $λ$ 值， $e^{- λ}$ 可能导致数值稳定性问题。对于较大 $λ$ 值的一种解决方案是拒绝采样，另一种是采用泊松分布的高斯近似。

对于很小的 $λ$ 值，逆变换取样简单而且高效，每个样本只需要一个均匀随机数u。直到有超过 $u$ 的样本，才需要检查累积概率。

algorithm Poisson generator based upon the inversion by sequential search:^[1]
    init:
         Let x ← 0, p ← e^−λ, s ← p.
         Generate uniform random number u in [0,1].
    do:
         x ← x + 1.
         p ← p * λ / x.
         s ← s + p.
    while u > s.
    return x.

参见

参考文献

引用

Template:Reflist

来源

Template:ReflistH

Template:ReflistF

Template:- Template:常见一元概率分布 Template:概率分布类型列表

↑ Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 -{R|http://luc.devroye.org/rnbookindex.html}- Template:Wayback

[1] Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 -{R|http://luc.devroye.org/rnbookindex.html}- Template:Wayback

[1]

卜瓦松分布

目录

记号

假设

性质

推導

泊松分布的来源（泊松小数定律）

最大似然估計（MLE）

例子

生成泊松分布的随机变量

参见

参考文献

引用

来源

导航菜单

卜瓦松分布

记号

假设

性质

推導

泊松分布的来源（泊松小数定律）

最大似然估計（MLE）

例子

生成泊松分布的随机变量

参见

参考文献

引用

来源

导航菜单

搜索