变分自编码器

机器学习中，变分自编码器（Variational Autoencoder，VAE）是由Diederik P. Kingma和Max Welling提出的一种人工神经网络结构，属于概率图模式和变分贝叶斯方法。^[1]

VAE与自编码器模型有关，因为两者在结构上有一定亲和力，但在目标和数学表述上有很大区别。VAE属于概率生成模型（Probabilistic Generative Model），神经网络仅是其中的一个组件，依照功能的不同又可分为编码器和解码器。编码器可将输入变量映射到与变分分布的参数相对应的潜空间（Latent Space），这样便可以产生多个遵循同一分布的不同样本。解码器的功能基本相反，是从潜空间映射回输入空间，以生成数据点。虽然噪声模型的方差可以单独学习而来，但它们通常都是用重参数化技巧（Reparameterization Trick）来训练的。

此类模型最初是为无监督学习设计的，^[2]^[3]但在半监督学习^[4]^[5]和监督学习中也表现出卓越的有效性。^[6]

结构与操作概述

VAE是一个分别具有先验和噪声分布的生成模型，一般用最大期望算法（Expectation-Maximization meta-algorithm）来训练。这样可以优化数据似然的下限，用其它方法很难实现这点，且需要q分布或变分后验。这些q分布通常在一个单独的优化过程中为每个单独数据点设定参数；而VAE则用神经网络作为一种摊销手段来联合优化各个数据点，将数据点本身作为输入，输出变分分布的参数。从一个已知的输入空间映射到低维潜空间，这是一种编码过程，因此这张神经网络也叫“编码器”。

解码器则从潜空间映射回输入空间，如作为噪声分布的平均值。也可以用另一个映射到方差的神经网络，为简单起见一般都省略掉了。这时，方差可以用梯度下降法进行优化。

优化模型常用的两个术语是“重构误差（reconstruction error）”和“KL散度”。它们都来自概率模型的自由能表达式（Free Energy Expression ），因而根据噪声分布和数据的假定先验而有所不同。例如，像IMAGENET这样的标准VAE任务一般都假设具有高斯分布噪声，但二值化的MNIST这样的任务则需要伯努利噪声。自由能表达式中的KL散度使得与p分布重叠的q分布的概率质量最大化，但这样可能导致出现搜寻模态（Mode-Seeking Behaviour）。自由能表达式的剩余部分是“重构”项，需要用采样逼近来计算其期望。^[7]

系统阐述

从建立概率模型的角度来看，人们希望用他们选择的参数化概率分布 $p_{θ} (x) = p (x | θ)$ 使数据 $x$ 的概率最大化。这一分布常是高斯分布 $N (x | μ, σ)$ ，分别参数化为 $μ$ 和 $σ$ ，作为指数族的一员很容易作为噪声分布来处理。简单的分布很容易最大化，但如果假设了潜质（latent） $z$ 的先验分布，可能会产生难以解决的积分。让我们通过对 $z$ 的边缘化找到 $p_{θ} (x)$ 。

p_{θ} (x) = \int_{z} p_{θ} (x, z) d z,

其中， $p_{θ} (x, z)$ 表示可观测数据 $x$ 于 $p_{θ}$ 下的联合分布，和在潜空间中的形式（也就是编码后的 $z$ ）。根据连锁法则，方程可以改写为

p_{θ} (x) = \int_{z} p_{θ} (x | z) p_{θ} (z) d z

在原始的VAE中，通常认为 $z$ 是实数的有限维向量， $p_{θ} (x | z)$ 则是高斯分布。那么 $p_{θ} (x)$ 便是高斯分布的混合物。

现在，可将输入数据和其在潜空间中的表示的映射定义为

先验 $p_{θ} (z)$
似然值 $p_{θ} (x | z)$
后验 $p_{θ} (z | x)$

不幸的是，对 $p_{θ} (x)$ 的计算十分困难。为了加快计算速度，有必要再引入一个函数，将后验分布近似为

q_{ϕ} (z | x) \approx p_{θ} (z | x)

其中 $ϕ$ 是参数化的 $q$ 的实值集合。这有时也被称为“摊销推理”（amortized inference），因为可以通过“投资”找到好的 $q_{ϕ}$ ，之后不用积分便可以从 $x$ 快速推断出 $z$ 。

这样，问题就变成了找到一个好的概率自编码器，其中条件似然分布 $p_{θ} (x | z)$ 由概率解码器（probabilistic decoder）计算得到，后验分布近似 $q_{ϕ} (z | x)$ 由概率编码器（probabilistic encoder）计算得到。

下面将编码器参数化为 $E_{ϕ}$ ，将解码器参数化为 $D_{θ}$ 。

证据下界（Evidence lower bound，ELBO）

如同每个深度学习问题，为了通过反向传播算法更新神经网络的权重，需要定义一个可微损失函数。

对于VAE，这一思想可以实现为联合优化生成模型参数 $θ$ 和 $ϕ$ ，以减少输入输出间的重构误差，并使 $q_{ϕ} (z | x)$ 尽可能接近 $p_{θ} (z | x)$ 。重构损失常用均方误差和交叉熵。

作为两个分布之间的距离损失，反向KL散度 $D_{K L} (q_{ϕ} (z | x) ∥ p_{θ} (z | x))$ 可以很有效地将 $q_{ϕ} (z | x)$ 挤压到 $p_{θ} (z | x)$ 之下。^[8]^[9]

刚刚定义的距离损失可扩展为

\begin{matrix} D_{K L} (q_{ϕ} (z | x) ∥ p_{θ} (z | x)) & = 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{q_{ϕ} (z | x)}{p_{θ} (z | x)}] \\ = 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{q_{ϕ} (z | x) p_{θ} (x)}{p_{θ} (x, z)}] \\ = \ln p_{θ} (x) + 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{q_{ϕ} (z | x)}{p_{θ} (x, z)}] \end{matrix}

现在定义证据下界（Evidence lower bound，ELBO）： $L_{θ, ϕ} (x) : = 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{p_{θ} (x, z)}{q_{ϕ} (z | x)}] = \ln p_{θ} (x) - D_{K L} (q_{ϕ} (\cdot | x) ∥ p_{θ} (\cdot | x))$ 使ELBO最大化 $θ^{*}, ϕ^{*} = \underset{θ, ϕ}{argmax} L_{θ, ϕ} (x)$ 等于同时最大化 $\ln p_{θ} (x)$ 、最小化 $D_{K L} (q_{ϕ} (z | x) ∥ p_{θ} (z | x))$ 。即，最大化观测数据似然的对数值，同时最小化近似后验 $q_{ϕ} (\cdot | x)$ 与精确后验 $p_{θ} (\cdot | x)$ 的差值。

给出的形式不大方便进行最大化，可以用下面的等价形式： $L_{θ, ϕ} (x) = 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln p_{θ} (x | z)] - D_{K L} (q_{ϕ} (\cdot | x) ∥ p_{θ} (\cdot))$ 其中 $\ln p_{θ} (x | z)$ 实现为 $‖ x - D_{θ} (z) ‖_{2}^{2}$ ，因为这是在加性常数的前提下 $x \sim 𝒩 (D_{θ} (z), I)$ 得到的东西。也就是说，我们把 $x$ 在 $z$ 上的条件分布建模为以 $D_{θ} (z)$ 为中心的高斯分布。 $q_{ϕ} (z | x)$ 和 $p_{θ} (z)$ 的分布通常也被选为高斯分布，因为 $z | x \sim (E_{ϕ} (x), σ_{ϕ} (x)^{2} I)$ 和 $z \sim (0, I)$ 可以通过高斯分布的KL散度公式得到： $L_{θ, ϕ} (x) = - \frac{1}{2} 𝔼_{z \sim q_{ϕ} (\cdot | x)} [‖ x - D_{θ} (z) ‖_{2}^{2}] - \frac{1}{2} (N σ_{ϕ} (x)^{2} + ‖ E_{ϕ} (x) ‖_{2}^{2} - 2 N \ln σ_{ϕ} (x)) + C o n s t$

重参数化

有效搜索到 $θ^{*}, ϕ^{*} = \underset{θ, ϕ}{argmax} L_{θ, ϕ} (x)$ 的典型方法是梯度下降法。

它可以很直接地找到 $\nabla_{θ} 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{p_{θ} (x, z)}{q_{ϕ} (z | x)}] = 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\nabla_{θ} \ln \frac{p_{θ} (x, z)}{q_{ϕ} (z | x)}]$ 但是， $\nabla_{ϕ} 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{p_{θ} (x, z)}{q_{ϕ} (z | x)}]$ 不允许将 $\nabla_{ϕ}$ 置于期望中，因为 $ϕ$ 出现在概率分布本身之中。重参数化技巧（也被称为随机反向传播^[10]）则绕过了这个难点。^[8]^[11]^[12]

最重要的例子是当 $z \sim q_{ϕ} (\cdot | x)$ 遵循正态分布时，如 $𝒩 (μ_{ϕ} (x), Σ_{ϕ} (x))$ 。

可以通过让 $ε \sim 𝒩 (0, 𝑰)$ 构成“标准随机数生成器”来实现重参数化，并将 $z$ 构建为 $z = μ_{ϕ} (x) + L_{ϕ} (x) ϵ$ 。这里， $L_{ϕ} (x)$ 通过科列斯基分解得到： $Σ_{ϕ} (x) = L_{ϕ} (x) L_{ϕ} (x)^{T}$ 接着我们有 $\nabla_{ϕ} 𝔼_{z \sim q_{ϕ} (\cdot | x)} [\ln \frac{p_{θ} (x, z)}{q_{ϕ} (z | x)}] = 𝔼_{ϵ} [\nabla_{ϕ} \ln \frac{p_{θ} (x, μ_{ϕ} (x) + L_{ϕ} (x) ϵ)}{q_{ϕ} (μ_{ϕ} (x) + L_{ϕ} (x) ϵ | x)}]$ 由此，我们得到了梯度的无偏估计，这就可以应用随机梯度下降法了。

由于我们重参数化了 $z$ ，所以需要找到 $q_{ϕ} (z | x)$ 。令 $q_{0}$ 为 $ϵ$ 的概率密度函数，那么 $\ln q_{ϕ} (z | x) = \ln q_{0} (ϵ) - \ln | \det (\partial_{ϵ} z) |$ ，其中 $\partial_{ϵ} z$ 是 $ϵ$ 相对于 $z$ 的雅可比矩阵。由于 $z = μ_{ϕ} (x) + L_{ϕ} (x) ϵ$ ，这就是 $\ln q_{ϕ} (z | x) = - \frac{1}{2} ‖ ϵ ‖^{2} - \ln | \det L_{ϕ} (x) | - \frac{n}{2} \ln (2 π)$

变体

许多VAE的应用和扩展已被用来使其适应其他领域，并提升性能。

$β$ -VAE是带加权KL散度的实现，用于自动发现并解释因子化的潜空间形式。这种实现可以对大于1的 $β$ 值强制进行流形分解。这个架构可以在无监督下发现解耦的潜因子。^[13]^[14]

条件性VAE（CVAE）在潜空间中插入标签信息，强制对所学数据进行确定性约束表示（Deterministic Constrained Representation）。^[15]

一些结构可以直接处理生成样本的质量，^[16]^[17]或实现多个潜空间，以进一步改善表征学习的效果。^[18]^[19]

一些结构将VAE和生成对抗网络混合起来，以获得混合模型。^[20]^[21]^[22]

另见

Template:Div col

Template:Div col end

参考

Template:Reflist

Template:Differentiable computing

[1] Template:Cite book

[2] Template:Cite arXiv

[3] Template:Cite book

[4] Template:Cite book

[5] Template:Cite journal

[6] Template:Cite journal

[7] Template:Cite arXiv

[:0-8] 8.0 ^8.1 Template:Cite arXiv

[9] Template:Cite news

[10] Template:Cite journal

[11] Template:Cite journal

[12] Template:Cite arXiv

[13] Template:Cite journal

[14] Template:Cite arXiv

[15] Template:Cite journal

[16] Template:Cite arXiv

[17] Template:Cite arXiv

[18] Template:Cite journal

[19] Template:Cite arXiv

[20] Template:Cite journal

[21] Template:Cite arXiv

[22] Template:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

变分自编码器

目录

结构与操作概述

系统阐述

证据下界（Evidence lower bound，ELBO）

重参数化

变体

另见

参考

导航菜单