证据下界

来自testwiki
跳转到导航 跳转到搜索

Template:贝叶斯统计变分贝叶斯方法中,证据下界Template:Lang-enTemplate:Lang;有时也称为变分下界[1]负变分自由能)是一种用于估计一些观测数据的对数似然的下限。

术语和符号

XZ是随机变量,其联合分布为pθ。例如,pθ(X)X边缘分布pθ(ZX)是在给定X的条件下,Z的条件分布。那么对于任何从pθ中抽取的样本xpθ和任何分布qϕ,我们有:

lnpθ(x)𝔼zqϕ[lnpθ(x,z)qϕ(z)].


我们将上述不等式称为ELBO不等式。其中,左侧称为x的证据,右侧称为x的证据下界(ELBO)。

在变分贝叶斯方法的术语中,分布pθ(X)称为证据。一些人使用“证据”一词来表示lnpθ(X),而其他作者将lnpθ(X)称为对数证据,有些人会交替使用证据和对数证据这两个术语。

ELBO 没有普遍且固定的表示法。在本文中我们使用L(ϕ,θ;x):=𝔼zqϕ(|x)[lnpθ(x,z)qϕ(z|x)].

动机

变分贝叶斯推理

假设我们有一个可观察的随机变量X,并且我们想找到其真实分布p*。这将允许我们通过抽样生成数据,并估计未来事件的概率。一般来说,精确找到p*是不可能的,因此我们不得不寻找一个近似。

也就是说,我们定义一个足够大的参数化分布族{pθ}θΘ,然后最小化某种损失函数LminθL(pθ,p*)。解决这个问题的一种可能方法是考虑从pθpθ+δθ的微小变化,并解决L(pθ,p*)L(pθ+δθ,p*)=0。这是变分法中的一个变分问题,因此被称为变分方法。

由于明确参数化的分布族并不多(所有经典的分布族,如正态分布、Gumbel分布等都太过简单,无法很好地模拟真实分布),我们考虑隐式参数化的概率分布:

  • 首先,定义一个在潜在随机变量Z上的简单分布p(z)。通常情况下,正态分布或均匀分布已足够。
  • 接下来,定义一个由θ参数化的复杂函数族fθ(例如深度神经网络)。
  • 最后,定义一种将任何fθ(z)转换为可观测随机变量X的简单分布的方法。例如,让fθ(z)=(f1(z),f2(z))具有两个输出,那么我们可以将相应的分布定义为在X上的正态分布𝒩(f1(z),ef2(z))

这定义了一个关于(X,Z)的联合分布族pθ。从pθ中抽取样本(x,z)pθ变得非常容易:只需从p中抽样zp,然后计算fθ(z),最后使用fθ(z)来抽样xpθ(|z)


换句话说,我们拥有了一个可观测量和潜在随机变量的生成模型。

现在,我们认为一个分布pθ是好的,如果它是p*的一个接近近似:pθ(X)p*(X)由于右侧的分布仅涉及到X,因此左侧的分布必须消除潜在变量Z的影响,即要对Z进行边缘化。

一般情况下,我们无法积分pθ(x)=pθ(x|z)p(z)dz,这迫使我们寻找另一个近似。

由于pθ(x)=pθ(x|z)p(z)pθ(z|x),因此我们只需要找到一个pθ(z|x)的好的近似即可。因此,我们定义另一个分布族qϕ(z|x)来近似pθ(z|x),这是一个针对潜在变量的判别模型。

下表概述了所有情况:

X:观测量 X,Z Z:潜变量
p*(x)pθ(x)pθ(x|z)p(z)qϕ(z|x)可近似的 p(z),简单
pθ(x|z)p(z),简单
pθ(z|x)qϕ(z|x)可近似的 pθ(x|z),简单

用贝叶斯的方式来说,X是观测到的证据,Z是潜在/未观测到的随机变量。分布pZ上是Z的先验分布,pθ(x|z)是似然函数,而pθ(z|x)Z的后验分布。


给定一个观测值x,我们可以通过计算pθ(z|x)来推断出可能导致x出现的z。通常的贝叶斯方法是估计积分:

pθ(x)=pθ(x|z)p(z)dz

然后通过贝叶斯定理计算:

pθ(z|x)=pθ(x|z)p(z)pθ(x)

这通常是非常耗时的,但如果我们可以找到一个在大多数x,z下的好近似qϕ(z|x)pθ(z|x),那么我们就可以快速地从x推断出z。因此,寻找一个好的qϕ也称为摊销推断

综上所述,我们找到了一个变分贝叶斯推断问题。

推导ELBO

变分推断中的一个基本结果是,最小化Kullback–Leibler 散度(KL散度)等价于最大化对数似然:𝔼xp*(x)[lnpθ(x)]=H(p*)D𝐾𝐿(p*(x)pθ(x))其中H(p*)=𝔼xp*[lnp*(x)]是真实分布的熵。因此,如果我们可以最大化𝔼xp*(x)[lnpθ(x)]

我们就可以最小化D𝐾𝐿(p*(x)pθ(x))

因此找到一个准确的近似pθp*。要最大化𝔼xp*(x)[lnpθ(x)]我们只需从真实分布中抽取许多样本xip*(x),然后使用:Nmaxθ𝔼xp*(x)[lnpθ(x)]maxθilnpθ(xi)为了最大化ilnpθ(xi),必须要找到lnpθ(xi)Template:NoteTaglnpθ(x)=lnpθ(x|z)p(z)dz这通常没有解析解,必须进行估计。估计积分的常用方法是使用重要性采样进行蒙特卡洛积分pθ(x|z)p(z)dz=𝔼zqϕ(|x)[pθ(x,z)qϕ(z|x)]其中,qϕ(z|x)是我们用于进行蒙特卡罗积分的在z上的抽样分布。因此,我们可以看到,如果我们抽样zqϕ(|x),那么pθ(x,z)qϕ(z|x)pθ(x)的一个无偏估计量。不幸的是,这并不能给我们一个对lnpθ(x)的无偏估计量,因为ln是非线性的。事实上,由于琴生(Jensen)不等式,我们有:lnpθ(x)=ln𝔼zqϕ(|x)[pθ(x,z)qϕ(z|x)]𝔼zqϕ(|x)[lnpθ(x,z)qϕ(z|x)]事实上,所有明显的lnpθ(x)的估计量都是向下偏的,因为无论我们取多少个ziqϕ(|x)的样本,我们都可以由琴生不等式得到:𝔼ziqϕ(|x)[ln(1Nipθ(x,zi)qϕ(zi|x))]ln𝔼ziqϕ(|x)[1Nipθ(x,zi)qϕ(zi|x)]=lnpθ(x)减去右边,我们可以看出问题归结为零的有偏估计问题:𝔼ziqϕ(|x)[ln(1Nipθ(zi|x)qϕ(zi|x))]0通过delta 方法,我们有𝔼ziqϕ(|x)[ln(1Nipθ(zi|x)qϕ(zi|x))]12N𝕍zqϕ(|x)[pθ(z|x)qϕ(z|x)]=O(N1)如果我们继续推导,我们将得到加权自编码器。[2]但是让我们先回到最简单的情况,即N=1:lnpθ(x)=ln𝔼zqϕ(|x)[pθ(x,z)qϕ(z|x)]𝔼zqϕ(|x)[lnpθ(x,z)qϕ(z|x)]不等式的紧度有一个解析解:lnpθ(x)𝔼zqϕ(|x)[lnpθ(x,z)qϕ(z|x)]=D𝐾𝐿(qϕ(|x)pθ(|x))0这样我们就得到了ELBO函数:L(ϕ,θ;x):=lnpθ(x)D𝐾𝐿(qϕ(|x)pθ(|x))

最大化 ELBO

对于固定的x,优化maxθ,ϕL(ϕ,θ;x)的同时试图最大化lnpθ(x)和最小化D𝐾𝐿(qϕ(|x)pθ(|x))。如果pθqϕ的参数化足够灵活,我们会得到一些 ϕ^,θ^,使得我们同时得到了以下近似:lnpθ^(x)maxθlnpθ(x);qϕ^(|x)pθ^(|x)由于𝔼xp*(x)[lnpθ(x)]=H(p*)D𝐾𝐿(p*(x)pθ(x))我们有lnpθ^(x)maxθH(p*)D𝐾𝐿(p*(x)pθ(x))所以θ^argminD𝐾𝐿(p*(x)pθ(x))也就是说: 最大化ELBO将同时使我们得到一个准确的生成模型pθ^p*和一个准确的判别模型 qϕ^(|x)pθ^(|x)

主要形式

ELBO具有许多可能的表达式,每个表达式都有不同的强调。𝔼zqϕ(|x)[lnpθ(x,z)qϕ(z|x)]=qϕ(z|x)lnpθ(x,z)qϕ(z|x)dz这个形式表明,如果我们抽样zqϕ(|x) , 则lnpθ(x,z)qϕ(z|x)是 ELBO 的无偏估计量lnpθ(x)D𝐾𝐿(qϕ(|x)pθ(|x))这种形式显示 ELBO 是证据lnpθ(x)的下界 ,并且关于ϕ最大化 ELBO 等价于最小化从pθ(|x)qϕ(|x) KL 散度 .𝔼zqϕ(|x)[lnpθ(x|z)]D𝐾𝐿(qϕ(|x)p)这种形式显示,最大化ELBO同时试图将qϕ(|x)保持接近p,并将qϕ(|x)集中在最大化lnpθ(x|z)的那些z上。也就是说,近似后验qϕ(|x)在保持先验p的同时,朝着最大似然argmaxzlnpθ(x|z)移动。H(qϕ(|x))+𝔼zq(|x)[lnpθ(z|x)]+lnpθ(x)这个形式显示,最大化ELBO同时试图保持qϕ(|x)的熵高,并将qϕ(|x)集中于最大化lnpθ(z|x)的那些z 。也就是说,近似后验qϕ(|x)在均匀分布和向最大后验argmaxzlnpθ(z|x)之间保持平衡。

数据处理不等式

假设我们从p*中取N个独立样本,并将它们收集在数据集D={x1,...,xN}中,则我们具有经验分布qD(x)=1Niδxi。其中δ表示冲激函数(Dirac函数)。

pθ(x)拟合qD(x)通常可以通过最大化对数似然lnpθ(D)来完成:D𝐾𝐿(qD(x)pθ(x))=1Nilnpθ(xi)H(qD)=1Nlnpθ(D)+H(qD)现在,根据 ELBO 不等式,我们可以约束lnpθ(D) , 因此D𝐾𝐿(qD(x)pθ(x))1NL(ϕ,θ;D)H(qD)右侧简化为 KL 散度,因此我们得到:D𝐾𝐿(qD(x)pθ(x))1NiL(ϕ,θ;xi)H(qD)=D𝐾𝐿(qD,ϕ(x,z);pθ(x,z))这个结果可以解释为数据处理不等式的一个特例。

在这个解释下,最大化L(ϕ,θ;D)=iL(ϕ,θ;xi)等价于最小化D𝐾𝐿(qD,ϕ(x,z);pθ(x,z)),其中上式是真实的需要估计的量D𝐾𝐿(qD(x);pθ(x))的上界,通过数据处理不等式获得。也就是说,我们通过将潜在空间与观测空间连接起来,为了更高效地最小化KL散度而付出了较弱的不等式代价。[3]

参考

注释

Template:NoteFoot