微分熵

微分熵是消息理論中的一個概念，是從以離散隨機變數所計算出的夏農熵推廣，以連續型隨機變數計算所得之熵，微分熵與離散隨機變數所計算出之夏農熵，皆可代表描述一信息所需碼長的下界，然而，微分熵與夏農熵仍存在著某些相異的性質。

定義

令 $X$ 為一連續型隨機變數，其機率密度函數為 $f_{X} (x)$ ，其中 $X$ 的支撐集為 $S = {x \in X | f_{X} (x) > 0}$ 。微分熵 $h_{X} (x)$ :

$h_{X} (x) = - \int_{S} f_{X} (x) l o g (f_{X} (x)) d x$ 。

與夏農熵為類比，計算夏農熵之算式中的 $\log$ 通常以2為底，而微分熵為計算方便，常以 $l n$ 計算後再轉換為 $l o g_{2}$ 的結果。微分熵與夏農熵最大的不同點在於 $f_{X} (x)$ 可為大於1的數值，此時可能會造成 $h_{X} (x)$ 為負值，而夏農熵 $H_{X} (x)$ 恆不為負。

例如， $X$ 為均勻分布 $U (0, a), a < 1$ ：

$f_{X} (x) =$ $\frac{1}{a}$ $; h_{X} (x) = - \int_{0}^{a}$ $\frac{1}{a}$ $l n$ $\frac{1}{a}$ $d x$

$h_{X} (x) = l n (a)$ $< 0$

性質

相對熵恆正

與夏農相對熵性質相同，恆正。

$- D (f | | g) = \int f l o g \frac{g}{f}$

$\leq l o g \int f \frac{g}{f}$ (延森不等式)

$\leq 0$ 。

鏈式法則

一次觀測所有隨機變數所測得的聯合熵，與個別接收隨機變數後計算的條件熵總和相同，即觀測順序與間隔不影響微分熵。

$h (X_{1}, X_{2}, . . ., X_{n}) = \sum_{k = 1}^{n} h (X_{i} | X_{1}, X_{2}, . . ., X_{i - 1})$ 。

平移

隨機變數的平移不影響微分熵，因為固定的平移不會增加隨機變數的方差。

$h (X + c) = h (X)$

縮放

將隨機變數縮放會增加其方差，微分熵亦會隨之增加。

$h (A X) = h (X) + l o g | d e t (A) |$

上界

期望值為0，方差為 $σ^{2}$ 且值域為 $R$ 之隨機變數 $X$ 的微分熵，其上界為常態分佈 $N (0, σ^{2})$ 的微分熵。

$h (X) \leq \frac{1}{2} l o g (2 π e σ^{2})$

估計誤差

隨機變數 $X$ 與其估計子 $\hat{X}$ 之均方誤差存在下界，當 $X$ 為常態分佈且 $\hat{X}$ 為無偏估計子時，等號成立。

$E [(X - \hat{X})^{2}] \geq \frac{1}{2 π e} e^{2 h (X)}$

漸進等分性

離散隨機變數的夏農熵中，獨立同分布的隨機變數序列，在漸進等分性(Asymptotic equipartition property)之下其機率質量函數 $p (X_{1}, X_{2}, . . ., X_{n})$ 趨近於 $2^{- n H (X)}$ 。

連續型隨機變數之漸進等分性：

$- \frac{1}{n} l o g (f (X_{1}, X_{2}, . . ., X_{n})) \to h (X)$

典型集

典型集(Typical set)定義如下

$A_{ϵ}^{(n)} = {(x_{1}, x_{2}, . . ., x_{n}) \in S^{n} : | - \frac{1}{n} l o g f (x_{1}, x_{2}, . . ., x_{n}) - h (X) | \leq ϵ}$ , $ϵ > 0$

體積

集合包含於 $R^{n}$ , $A \subset R^{n}$ ，其體積(Volume) $V o l (A)$ 定義如下:

$V o l (A) = \int_{A} d x_{1} d x_{2} . . . d x_{n}$ 。

典型集 $A_{ϵ}^{(n)}$ 的體積有以下性質:

1. $V o l (A_{ϵ}^{(n)}) \leq 2^{n (h (X) + ϵ)}$

2. $V o l (A_{ϵ}^{(n)}) \geq (1 - ϵ) 2^{n (h (X) - ϵ)}$

證明

1.

由 $- \frac{1}{n} l o g (f (X_{1}, X_{2}, . . ., X_{n})) \to h (X)$ ，

可得：

$1 = \int_{S^{n}} f (x_{1}, x_{2}, . . ., x_{n}) d x_{1} d x_{2} . . . d x_{n}$

$\geq \int_{A_{ϵ}^{(n)}} f (x_{1}, x_{2}, . . ., x_{n}) d x_{1} d x_{2} . . . d x_{n}$

$\geq \int_{A_{ϵ}^{(n)}} 2^{- n (h (X) + ϵ)} d x_{1} d x_{2} . . . d x_{n}$

$= 2^{- n (h (X) + ϵ)} \int_{A_{ϵ}^{(n)}} d x_{1} d x_{2} . . . d x_{n}$

$= 2^{- n (h (X) + ϵ)} V o l (A_{ϵ}^{(n)})$

2.

當n足夠大時， $P r (A_{ϵ}^{(n)}) > 1 - ϵ$ ，

因此：

$1 - ϵ \leq \int_{A_{ϵ}^{(n)}} f (x_{1}, x_{2}, . . ., x_{n}) d x_{1} d x_{2} . . . d x_{n}$

$\leq \int_{A_{ϵ}^{(n)}} 2^{- n (h (X) - ϵ)} d x_{1} d x_{2} . . . d x_{n}$

$= 2^{- n (h (X) - ϵ)} \int_{A_{ϵ}^{(n)}} d x_{1} d x_{2} . . . d x_{n}$

$= 2^{- n (h (X) - ϵ)} V o l (A_{ϵ}^{(n)})$

量化

我們可以將機率密度函數量化後，以夏農熵來計算微分熵。首先將連續隨機變數X以 $Δ$ 分為數個區間，根據均值定理， $x_{i}$ 滿足：

$f (x_{i}) Δ = \int_{i Δ}^{(i + 1) Δ} f (x) d x = p_{i}$

量化後的隨機變數 $X^{Δ}$ :

$X^{Δ} = x_{i}, i Δ \leq X < (i + 1) Δ$

夏農熵為:

$H (X^{Δ}) = - \sum_{- \infty}^{\infty} f (x_{i}) Δ l o g (f (x_{i})) - l o g Δ$

意即，當 $Δ \to 0$ ， $h (f) = h (X)$ 。

例子：

1.

對X做n位元量化 $X \sim U (0, \frac{1}{8})$ 。

$H (X^{Δ}) = - 3 + n$

上式表示，若我們想得到n位元精確度，則需要n-3個位元來表示。

2.

對X做n位元量化 $X \sim N (0, σ^{2})$ 。

$H (X^{Δ}) = \frac{1}{2} l o g (2 π e σ^{2}) + n$

上式表示，若我們想得到n位元精確度，需要 $\frac{1}{2} l o g (2 π e σ^{2}) + n$ 個位元來表示。

最大熵

常態分佈

隨機變數 $X$ ， $X_{N}$ 值域為 $(- \infty, \infty)$ ，方差為 $σ^{2}$ ， $X$ 為任意分佈， $X_{N}$ 為常態分佈，機率密度函數分別為 $f (x), g (x)$ 。

則 $h_{X} (X) \leq \frac{1}{2} l o g (2 π e σ^{2})$

證明:

$\begin{matrix} 0 & \leq D (f | | g) \\ = \int f (x) l o g (\frac{f (x)}{g (x)}) d x \\ = - h (X) - \int f (x) l o g (g (x)) d x \\ = - h (X) + h (x) \end{matrix}$

其中，

$\begin{matrix} - \int_{- \infty}^{\infty} f (x) l o g (g (x)) d x & = \int_{- \infty}^{\infty} f (x) (\frac{1}{2} l o g (2 π σ^{2}) + \frac{1}{2} (\frac{x - μ}{σ})^{2}) d x \\ = \frac{1}{2} l o g (2 π e σ^{2}) \end{matrix}$

指數分佈

隨機變數 $X$ ， $Y$ 值域為 $(0, \infty)$ ，期望值為 $λ$ ， $X$ 為任意分佈， $Y$ 為指數分佈，機率密度函數分別為 $f (x), g (x)$ 。

則 $h_{X} (X) \leq 1 + l o g λ$ 。

證明:

$\begin{matrix} 0 & \leq D (f | | g) \\ = \int f (x) l o g (\frac{f (x)}{g (x)}) d x \\ = - h (X) - \int f (x) l o g (g (x)) d x \\ = - h (X) + h (Y) \end{matrix}$

其中，

$\begin{matrix} - \int_{0}^{\infty} f (x) l o g (g (x)) d y & = - \int_{0}^{\infty} f (x) (l o g λ + \frac{x}{λ}) d x \\ = 1 + l o g λ \end{matrix}$

參考文獻

Template:Refbegin

Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1

Template:Refend

微分熵

目录

定義

相關計算

條件熵

相對熵

互信息

性質

相對熵恆正

鏈式法則

平移

縮放

上界

估計誤差

漸進等分性

漸進等分性

典型集

體積

量化

例子：

最大熵

常態分佈

指數分佈

參考文獻

导航菜单

微分熵

定義

相關計算

條件熵

相對熵

互信息

性質

相對熵恆正

鏈式法則

平移

縮放

上界

估計誤差

漸進等分性

漸進等分性

典型集

體積

量化

例子：

最大熵

常態分佈

指數分佈

參考文獻

导航菜单

搜索