微分熵

来自testwiki
imported>Imdoroc2024年5月28日 (二) 08:00的版本 常態分佈:​ a little computational error)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

微分熵消息理論中的一個概念,是從以離散隨機變數所計算出的夏農熵推廣,以連續型隨機變數計算所得之,微分熵與離散隨機變數所計算出之夏農熵,皆可代表描述一信息所需碼長的下界,然而,微分熵與夏農熵仍存在著某些相異的性質。

定義

X為一連續型隨機變數,其機率密度函數fX(x),其中X支撐集S={xX|fX(x)>0}。微分熵hX(x):

hX(x)=SfX(x)log(fX(x))dx

與夏農熵為類比,計算夏農熵之算式中的log通常以2為底,而微分熵為計算方便,常以ln計算後再轉換為log2的結果。微分熵與夏農熵最大的不同點在於fX(x)可為大於1的數值,此時可能會造成hX(x)為負值,而夏農熵HX(x)恆不為負。

例如,X均勻分布U(0,a),a<1

fX(x)=1a;hX(x)=0a1aln1adx

hX(x)=ln(a)<0

相關計算

f(x,y)X,Y之聯合機率密度函數,其條件熵為:

h(X|Y)=f(x,y)logf(x|y)dxdy

又稱KL散度Kullback–Leibler divergence),兩機率密度函數f、g的相對熵定義為:

D(f||g)=flogfg

兩連續型隨機變數的聯合機率密度函數為f(x,y),其互信息:

I(X;Y)=D(f(x,y)||f(x)f(y))

廣義而言,我們可以將互信息定義在有限多個連續隨機變數值域的劃分。 可參考連續互信息的量化

性質

相對熵恆正

與夏農相對熵性質相同,恆正。

D(f||g)=floggf

logfgf (延森不等式)

0

鏈式法則

一次觀測所有隨機變數所測得的聯合熵,與個別接收隨機變數後計算的條件熵總和相同,即觀測順序與間隔不影響微分熵。

h(X1,X2,...,Xn)=k=1nh(Xi|X1,X2,...,Xi1)

平移

隨機變數的平移不影響微分熵,因為固定的平移不會增加隨機變數的方差。

h(X+c)=h(X)

縮放

將隨機變數縮放會增加其方差,微分熵亦會隨之增加。

h(AX)=h(X)+log|det(A)|

上界

期望值為0,方差為σ2且值域為R之隨機變數X的微分熵,其上界為常態分佈N(0,σ2)的微分熵。

h(X)12log(2πeσ2)

估計誤差

隨機變數X與其估計子X^之均方誤差存在下界,當X為常態分佈且X^無偏估計子時,等號成立。

E[(XX^)2]12πee2h(X)

漸進等分性

離散隨機變數的夏農熵中,獨立同分布的隨機變數序列,在漸進等分性(Asymptotic equipartition property)之下其機率質量函數p(X1,X2,...,Xn)趨近於2nH(X)

連續型隨機變數之漸進等分性:

1nlog(f(X1,X2,...,Xn))h(X)

典型集

典型集(Typical set)定義如下

Aϵ(n)={(x1,x2,...,xn)Sn:|1nlogf(x1,x2,...,xn)h(X)|ϵ},ϵ>0

體積

集合包含於Rn,ARn,其體積(Volume)Vol(A)定義如下:

Vol(A)=Adx1dx2...dxn

典型集Aϵ(n)的體積有以下性質:

1.Vol(Aϵ(n))2n(h(X)+ϵ)

2.Vol(Aϵ(n))(1ϵ)2n(h(X)ϵ)

證明

1.

1nlog(f(X1,X2,...,Xn))h(X)

可得:

1=Snf(x1,x2,...,xn)dx1dx2...dxn

Aϵ(n)f(x1,x2,...,xn)dx1dx2...dxn

Aϵ(n)2n(h(X)+ϵ)dx1dx2...dxn

=2n(h(X)+ϵ)Aϵ(n)dx1dx2...dxn

=2n(h(X)+ϵ)Vol(Aϵ(n))

2.

當n足夠大時,Pr(Aϵ(n))>1ϵ

因此:

1ϵAϵ(n)f(x1,x2,...,xn)dx1dx2...dxn

Aϵ(n)2n(h(X)ϵ)dx1dx2...dxn

=2n(h(X)ϵ)Aϵ(n)dx1dx2...dxn

=2n(h(X)ϵ)Vol(Aϵ(n))

量化

我們可以將機率密度函數量化後,以夏農熵來計算微分熵。首先將連續隨機變數X以Δ分為數個區間,根據均值定理xi滿足:

f(xi)Δ=iΔ(i+1)Δf(x)dx=pi

量化後的隨機變數XΔ:

XΔ=xi,iΔX<(i+1)Δ

夏農熵為:

H(XΔ)=f(xi)Δlog(f(xi))logΔ

意即,當Δ0h(f)=h(X)

例子:

1.

對X做n位元量化XU(0,18)

H(XΔ)=3+n

上式表示,若我們想得到n位元精確度,則需要n-3個位元來表示。

2.

對X做n位元量化XN(0,σ2)

H(XΔ)=12log(2πeσ2)+n

上式表示,若我們想得到n位元精確度,需要12log(2πeσ2)+n個位元來表示。

最大熵

常態分佈

隨機變數XXN值域為(,),方差為σ2X為任意分佈,XN為常態分佈,機率密度函數分別為f(x),g(x)

hX(X)12log(2πeσ2)

證明:

0D(f||g)=f(x)log(f(x)g(x))dx=h(X)f(x)log(g(x))dx=h(X)+h(x)

其中,

f(x)log(g(x))dx=f(x)(12log(2πσ2)+12(xμσ)2)dx=12log(2πeσ2)

指數分佈

隨機變數XY值域為(0,),期望值為λX為任意分佈,Y為指數分佈,機率密度函數分別為f(x),g(x)

hX(X)1+logλ

證明:

0D(f||g)=f(x)log(f(x)g(x))dx=h(X)f(x)log(g(x))dx=h(X)+h(Y)

其中,

0f(x)log(g(x))dy=0f(x)(logλ+xλ)dx=1+logλ

參考文獻

Template:Refbegin

  • Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1

Template:Refend