相对熵

来自testwiki
跳转到导航 跳转到搜索

Template:專家 Template:NoteTA KL散度Kullback-Leibler divergence,簡稱KLD[1],在訊息系统中称为相对熵(relative entropy),在连续时间序列中称为随机性(randomness),在统计模型推断中称为訊息增益(information gain)。也称訊息散度(information divergence)。

KL散度是两个機率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。[1]

定義

對於离散隨機变量,其機率分布PQ的KL散度可按下式定義為

DKL(PQ)=iP(i)lnQ(i)P(i).

等价于

DKL(PQ)=iP(i)lnP(i)Q(i).

即按機率P求得的PQ對數商的平均值。KL散度僅當機率PQ各自總和均為1,且對於任何i皆滿足Q(i)>0P(i)>0時,才有定義。式中出現0ln0的情況,其值按0處理。

對於連續隨機變量,其機率分佈PQ的KL散度可按積分方式定義為 [2]

DKL(PQ)=p(x)lnp(x)q(x)dx,

其中pq分別表示分佈PQ的密度。

更一般的,若PQ為集合X的機率測度,且P關於Q絕對連續,則從PQ的KL散度定義為

DKL(PQ)=XlndPdQdP,

其中,假定右側的表達形式存在,則dQdPQ關於PR–N導數

相應的,若P關於Q絕對連續,則

DKL(PQ)=XlndPdQdP=XdPdQlndPdQdQ,

即為P關於Q的相對熵。

特性

相對熵的值為非負數:

DKL(PQ)0,

吉布斯不等式可知,當且僅當P=QDKL(PQ)為零。

尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距離。因為KL散度不具有对称性:从分布PQ的距离通常并不等于从QP的距离。

DKL(PQ)DKL(QP)


KL散度和其它量的关系

自信息和KL散度

I(m)=DKL(δim{pi}),


互信息和KL散度

I(X;Y)=DKL(P(X,Y)P(X)P(Y))=𝔼X{DKL(P(Y|X)P(Y))}=𝔼Y{DKL(P(X|Y)P(X))}


信息熵和KL散度

H(X)=(i)𝔼x{I(x)}=(ii)logNDKL(P(X)PU(X))


条件熵和KL散度

H(X|Y)=logNDKL(P(X,Y)PU(X)P(Y))=(i)logNDKL(P(X,Y)P(X)P(Y))DKL(P(X)PU(X))=H(X)I(X;Y)=(ii)logN𝔼Y{DKL(P(X|Y)PU(X))}


交叉熵和KL散度

H(p,q)=Ep[logq]=H(p)+DKL(pq).

参见

參考文獻

Template:Reflist

  1. 1.0 1.1 Template:Cite journal
  2. C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.