LogSumExp

Template:NoteTA LogSumExp（LSE，也称RealSoftMax^[1]或多变量softplus）函数是一个平滑最大值——一个对极值函数的光滑近似，主要用在机器学习算法中。^[2] 其定义为参数的指数的和的对数：

L S E (x_{1}, \dots, x_{n}) = \log (\exp (x_{1}) + \dots + \exp (x_{n})) .

性质

LogSumExp函数的定义域为 $ℝ^{n}$ （Template:Link-en），共域是 $ℝ$ （实数线）。它是对极值函数 $\max_{i} x_{i}$ 的近似，同时有如下的界限：

\max {x_{1}, \dots, x_{n}} \leq L S E (x_{1}, \dots, x_{n}) \leq \max {x_{1}, \dots, x_{n}} + \log (n) .

第一个不等式在 $n = 1$ 以外的情况是严格成立的，第二个不等式仅在所有元素相等时取等号。（证明：令 $m = \max_{i} x_{i}$ ，则 $\exp (m) \leq \sum_{i = 1}^{n} \exp (x_{i}) \leq n \exp (m)$ 。将不等式取对数即可。）

另外，我们可以将不等式缩放到更紧的界限。考虑函数 $\frac{1}{t} L S E (t x)$ 。然后，

\max {x_{1}, \dots, x_{n}} < \frac{1}{t} L S E (t x) \leq \max {x_{1}, \dots, x_{n}} + \frac{\log (n)}{t}

（证明：将上式 $x_{i}$ 用 $t > 0$ 的 $t x_{i}$ 替换，得到

\max {t x_{1}, \dots, t x_{n}} < L S E (t x_{1}, \dots, t x_{n}) \leq \max {t x_{1}, \dots, t x_{n}} + \log (n)

由于 $t > 0$ ，

t \max {x_{1}, \dots, x_{n}} < L S E (t x_{1}, \dots, t x_{n}) \leq t \max {x_{1}, \dots, x_{n}} + \log (n)

最后，同除 $t$ 得到结果。）

此外，如果我们乘上一个负数，可以得到一个与 $\min$ 有关的不等式：

\min {x_{1}, \dots, x_{n}} - \frac{\log (n)}{t} \leq \frac{1}{- t} L S E (- t x) < \min {x_{1}, \dots, x_{n}} .

LogSumExp函数是凸函数，因此在定义域上严格递增。^[3] （但并非处处都是严格凸的^[4]。）

令 $𝐱 = (x_{1}, \dots, x_{n})$ ，偏导数为：

\frac{\partial}{\partial x_{i}} L S E (𝐱) = \frac{\exp x_{i}}{\sum_{j} \exp x_{j}},

表明LogSumExp的梯度是softmax函数。

LogSumExp的凸共轭是Template:Link-en。

对数域中的log-sum-exp计算技巧

当通常的算术计算在对数尺度上进行时，经常会遇到LSE函数，例如对数概率。^[5]

类似于线性尺度中的乘法运算变成对数尺度中的简单加法，线性尺度中的加法运算变成对数尺度中的LSE：

L S E (\log (x_{1}), ..., \log (x_{n})) = \log (x_{1} + \dots + x_{n})

使用对数域计算的一个常见目的是在使用有限精度浮点数直接表示（在线性域中）非常小或非常大的数字时提高精度并避免溢出问题.^[6]

不幸的是，在一些情况下直接使用 LSE 依然会导致上溢/下溢问题，必须改用以下等效公式（尤其是当上述“最大”近似值的准确性不够时）。因此，IT++等很多数学库都提供了LSE的默认例程，并在内部使用了这个公式。

L S E (x_{1}, \dots, x_{n}) = x^{*} + \log (\exp (x_{1} - x^{*}) + \dots + \exp (x_{n} - x^{*}))

其中 $x^{*} = \max {x_{1}, \dots, x_{n}}$

一个严格凸的log-sum-exp型函数

LSE是凸的，但不是严格凸的。我们可以通过增加一项为零的额外参数来定义一个严格凸的log-sum-exp型函数^[7]：

{L S E}_{0}^{+} (x_{1}, ..., x_{n}) = L S E (0, x_{1}, ..., x_{n})

This function is a proper Bregman generator (strictly convex and differentiable). It is encountered in machine learning, for example, as the cumulant of the multinomial/binomial family.

在Template:Link-en中，这是Template:Link-en的和。

参见

参考资料

Template:Reflist Template:Refbegin

Template:Refend

[1] Template:Cite web

[F._Nielsen_2016-2] Template:Cite journal

[L._El_Ghaoui_2017-3] Template:Cite book

[4] Template:Cite web

[5] Template:Cite book

[6] Template:Cite web

[F._Nielsen_2018-7] Template:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

LogSumExp

目录

性质

对数域中的log-sum-exp计算技巧

一个严格凸的log-sum-exp型函数

参见

参考资料

导航菜单

LogSumExp

性质

对数域中的log-sum-exp计算技巧

一个严格凸的log-sum-exp型函数

参见

参考资料

导航菜单

搜索