基于流的生成模型

来自testwiki
跳转到导航 跳转到搜索

Template:Machine learning bar 基于流的生成模型Template:Lang-en)是机器学习中的一类生成模型,利用归一化流Template:Lang)显式建模概率分布[1][2][3]这是一种使用概率密度变量变换法将简单分布转换为复杂分布的统计方法。

直接建模似然函数具有很多优点。例如,可以直接计算得到负对数似然并将其作为损失函数最小化。此外,通过从初始分布中采样并应用流变换可以生成新的样本。

相比之下,变分自编码器生成对抗网络等其他生成模型无法显式地表示似然函数。

方法

归一化流图示

考虑随机变量z1z0,其中z0=f11(z1)。对于i=1,...,K,定义一系列由z0变换得到的随机变量zi=fi(zi1)。其中函数f1,...,fK满足可逆性,即存在反函数fi1。最终输出变量zK用于对目标分布进行建模。

zK的对数似然为(参见下方推导过程):

logpK(zK)=logp0(z0)i=1Klog|detdfi(zi1)dzi1|

为了高效计算对数似然,函数f1,...,fK应既易于求逆,也易于计算其雅可比矩阵行列式。在实践中,这些函数通常使用深度神经网络建模,并通过训练以最小化目标分布数据样本的负对数似然。这些架构一般设计为只需神经网络的正向传播即可完成逆运算与雅可比行列式的计算,例如NICE[4]、RealNVP[5]、Glow[6]等。

对数似然的推导

考虑z1z0,两者之间满足z0=f11(z1)。通过概率密度变量变换公式,z1的分布为:

p1(z1)=p0(z0)|detdf11(z1)dz1|

其中detdf11(z1)dz1f11雅可比矩阵行列式

反函数定理可以得到

p1(z1)=p0(z0)|det(df1(z0)dz0)1|

使用行列式性质det(A1)=det(A)1(其中A可逆矩阵),则有:

p1(z1)=p0(z0)|detdf1(z0)dz0|1

对上式取对数后得到对数似然:

logp1(z1)=logp0(z0)log|detdf1(z0)dz0|

对于任意zizi1都能得到类似结论。最终由递归关系可以得到:

logpK(zK)=logp0(z0)i=1Klog|detdfi(zi1)dzi1|

训练方法

与训练其他一些深度学习模型类似,归一化流的目标是最小化模型的似然分布与目标分布之间的KL散度。将模型的似然分布记为pθ,要学习的目标分布记为p*,则(正向)KL散度为:

DKL[p*(x)||pθ(x)]=𝔼p*(x)[log(pθ(x))]+𝔼p*(x)[log(p*(x))]

上式右边第二项表示目标分布的熵,与模型参数θ无关,因此在优化时可以忽略,留下需要最小化的项是目标分布下的负对数似然的期望。由于此项难以直接计算,可以通过重要性采样的蒙特卡洛方法来近似。若已从目标分布p*(x)中独立采样得到的数据集{xi}i=1:N从的样本,则该项可近似估计为:

𝔼^p*(x)[log(pθ(x))]=1Ni=0Nlog(pθ(xi))

因此,可以将学习目标

argminθ DKL[p*(x)||pθ(x)]

替换为

argmaxθ i=0Nlog(pθ(xi))

换句话说,最小化KL相度相当于最大化模型在观测样本下的似然[7]

训练归一化流的伪代码如下:[8]

  • 输入:数据集x1:n,归一化流模型fθ(),p0
  • 求解:通过梯度下降法最化maxθjlnpθ(xj)
  • 输出:优化后的参数θ^

变体

平面流

平面流(Template:Lang)是最早的归一化流方法。[9]给定某个激活函数h,以及具有适当维度的参数θ=(u,w,b),可以定义x=fθ(z)=z+uh(w,z+b)一般而言,逆映射fθ1没有解析解。

相应的雅可比行列式为|det(I+h(w,z+b)uwT)|=|1+h(w,z+b)u,w|

为保证其处处可逆,行列式必须在整个定义域内非零。例如当h=tanhu,w>1时可以满足可逆性要求。

非线性独立成分估计(NICE)

非线性独立成分估计(Template:Lang,简称Template:Lang)假设x,z2n是偶数维变量,并将其从中间分成两部分。[10]此时归一化流的定义为

x=[x1x2]=fθ(z)=[z1z2]+[0mθ(z1)]

其中mθ是任何带有权重θ的神经网络。

其逆映射fθ1z1=x1,z2=x2mθ(x1),雅可比行列式为1,即该归一化流动是体积保持(Template:Lang)的。

n=1时,这一映身可以视为沿x2方向的一种曲线剪切。

实值非体积保持(Real NVP)

实值非体积保持(Template:Lang,简称Template:Lang)是NICE模型的一种推广,定义为:[11]

x=[x1x2]=fθ(z)=[z1esθ(z1)z2]+[0mθ(z1)]

其逆映射是z1=x1,z2=esθ(x1)(x2mθ(x1)),相应的雅可比行列式为i=1nesθ(z1,)。当sθ=0时,退化为NICE模型。由于Real NVP映射将向量x的两部分分开处理,通常需要在每一层后添加一个置换操作(x1,x2)(x2,x1)

生成流(Glow)

生成流(Template:Lang,简称Template:Lang)模型[12]中每层由三个部分组成:

  • 通道方向的仿射变换ycij=sc(xcij+bc)相应的雅可比行列式为cscHW
  • 可逆1x1卷积zcij=cKccycij相应的雅可比行列式为det(K)HW,其中K是任意可逆矩阵。
  • Real NVP部分,其雅可比行列式如前所述。

生成流通过引入可逆1x1卷积,改进了Real NVP中仅仅置换前后两部分的方式,而是对所有层的通道进行总体上的置换。

掩码自回归流(MAF)

掩码自回归流(Template:Lang,简称Template:Lang)基于自回归模型,其定义了一个分布在n上的随机过程[13]

x1N(μ1,σ12)x2N(μ2(x1),σ2(x1)2)xnN(μn(x1:n1),σn(x1:n1)2)

其中μi:i1σi:i1(0,)是定义自回归模型的固定函数。

使用Template:Le,该自回归模型可以被推广为归一化流:

x1=μ1+σ1z1x2=μ2(x1)+σ2(x1)z2xn=μn(x1:n1)+σn(x1:n1)zn

zN(0,In) 可以重新得到自回归模型。

正向映射由于是顺序性的因而会很慢,但反向映射因为可以并列而会比较很快。

相应的雅可比矩阵是下对角矩阵,其行列式为σ1σ2(x1)σn(x1:n1)

通过反转fθfθ1这两个映射,可以得到逆自回归流 (Template:Lang,简称Template:Lang)。与MAF相反,IAF的正向映射较快、反向映射较慢。[14]

连续归一化流(CNF)

除了通过函数组合来构建流的方法,另一种方法是将流表示为连续时间动力学,得到连续归一化流(Template:Lang,简称Template:Lang)。[15][16]z0为具有分布p(z0)的潜变量,使用以下流函数将此潜变量映射到数据空间:

x=F(z0)=zT=z0+0Tf(zt,t)dt

其中f是任意函数,可以使用神经网络等进行建模。其反函数为:[17]

z0=F1(x)=zT+T0f(zt,t)dt=zT0Tf(zt,t)dt

于是可以得到x的对数似然:[18]

log(p(x))=log(p(z0))0TTr[fzt]dt

由于上式中的迹仅取决于雅可比矩阵ztf的对角线,这意味着对雅可比矩阵的形式没有任何限制。[19]这与先前的离散归一化模型不同,后者将雅可比矩阵设计为上对角或下对角形式,以便更高效地计算其行列式。

其中的迹可以使用“哈钦森技巧”(Template:Lang)来估计[20][21]:给定任意矩阵Wn×n以及满足E[uuT]=I的任意随机向量un,可以得到E[uTWu]=tr(W)

通常,随机向量u可以从正态分布N(0,I)Template:Le{±n1/2}n中进行采样。

f由神经网络实现时,需要使用神经常微分方程[22]。实际上,CNF最早是与神经常微分方程在同一篇论文中提出的。

CNF主要存在两个缺陷:一是连续流必须是同胚的,从而保持方向性和Template:Le(例如,不可能通过空间连续变形将左手翻转为右手,也不可能将球面外翻或解开一个结),二是学习到的流f可能会由于退化而表现不佳(有无数个可能的f都能解决同一问题)。

通过增加额外的维度,CNF可以获得足够的自由度来反转方向并突破环境同痕(类似于可以在三维空间中翻转一个多边形,或在四维空间中解开一个结),从而得到“增强神经常微分方程”。[23]

通过结合流形的Template:Le和神经网络的通用近似定理,能够证明n的任何同胚可以由2n+1上的神经常微分方程近似。[24]

还可以为流f引入正则化损失,例如基于最优传输理论的正则化损失:[25]

λK0Tf(zt,t)2dt+λJ0Tzf(zt,t)F2dt

其中λK,λJ>0是超参数。第一项惩罚模型随时间变化流场的振荡,第二项则惩罚模型随空间变化流场的振荡。这两项共同引导模型生成在空间和时间上平滑的流。

缺点

尽管归一化流在估计高维概率密度函数方面取得了成功,但其设计仍然存在一些缺陷。首先,归一化流的潜空间并不是一个低维空间,因此基于流的模型默认情况下不支持数据压缩,需要很大的计算量。不过,仍有办法可以用它们进行图像压缩。[26]

此外,基于流的模型在估计分布外样本(即非训练集分布中抽取的样本)的似然值时通常表现不佳。[27]学者提出了一些假设来解释这一现象,其中包括典型集假设[28]、模型训练中的估计问题[29]或由于数据分布熵引起的基础性问题[30]

归一化流最有趣的特性之一是其学习到的双射映射的可逆性。这一特性通过模型设计中的约束得以保证,从而确保理论上的可逆性。逆映射对确保变量变换定理的适用性、雅可比行列式的计算以及模型采样都至关重要。然而在实践中,由于数值不精确性,这种可逆性可能被破坏,进而导致逆映射爆炸。[31]

应用

基于流的生成模型已应用于多种场景,例如:

参考文献

Template:Reflist

Template:生成式人工智能