Hinge loss

Template:Math 时变量 Template:Mvar（水平方向）的铰链损失（蓝色，垂直方向）与0/1损失（垂直方向；绿色为 Template:Math ，即分类错误）。注意铰接损失在 Template:Math 时也会给出惩罚，对应于支持向量机中间隔的概念。

在機器學習中，鉸鏈損失是一個用於訓練分類器的損失函數。鉸鏈損失被用於「最大間格分類」，因此非常適合用於支持向量機 (SVM)。^[1] 对于一个预期输出 $t = \pm 1$ ，分类结果 $y$ 的鉸鏈損失定義為

ℓ (y) = \max (0, 1 - t \cdot y)

特別注意：以上式子的 $y$ 應該使用分類器的「原始輸出」，而非預測標籤。例如，在線性支持向量機當中， $y = 𝐰 \cdot 𝐱 + b$ ，其中 $(𝐰, b)$ 是超平面参数， $𝐱$ 是輸入資料點。

當 $t$ 和 $y$ 同號（意即分類器的輸出 $y$ 是正確的分類），且 $| y | \geq 1$ 时，鉸鏈損失 $ℓ (y) = 0$ 。但是，當它們異號（意即分類器的輸出 $y$ 是错误的分類）時， $ℓ (y)$ 隨 $y$ 線性增長。套用相似的想法，如果 $| y | < 1$ ，即使 $t$ 和 $y$ 同號（意即分類器的分類正確，但是間隔不足），此時仍然會有損失。

扩展

二元支持向量机经常通过一对多（winner-takes-all strategy，WTA SVM）或一对一（max-wins voting，MWV SVM）策略来扩展为多元分类，^[2] 铰接损失也可以做出类似的扩展，已有数个不同的多元分类铰接损失的变体被提出。^[3] 例如，Crammer 和 Singer ^[4] 将一个多元线性分类的铰链损失定义为^[5]

ℓ (y) = \max (0, 1 + \max_{y \neq t} 𝐰_{y} 𝐱 - 𝐰_{t} 𝐱)

其中 $t$ 为目的标签， $𝐰_{t}$ 和 $𝐰_{y}$ 该模型的参数。

Weston 和 Watkins 提出了一个类似的定义，但使用求和代替了最大值：^[6]^[3]

ℓ (y) = \sum_{y \neq t} \max (0, 1 + 𝐰_{y} 𝐱 - 𝐰_{t} 𝐱)

在结构预测中，铰接损失可以进一步扩展到结构化输出空间。支持间隔调整的结构化支持向量机可以使用如下所示的铰链损失变体，其中 Template:Math 表示SVM的参数， Template:Math 为SVM的预测结果，Template:Mvar 为联合特征函数，Template:Math 为汉明损失:

\begin{matrix} ℓ (𝐲) & = \max (0, Δ (𝐲, 𝐭) + ⟨ 𝐰, ϕ (𝐱, 𝐲) ⟩ - ⟨ 𝐰, ϕ (𝐱, 𝐭) ⟩) \\ = \max (0, \max_{y \in 𝒴} (Δ (𝐲, 𝐭) + ⟨ 𝐰, ϕ (𝐱, 𝐲) ⟩) - ⟨ 𝐰, ϕ (𝐱, 𝐭) ⟩) \end{matrix}

优化算法

铰链损失是一种凸函数，因此许多机器学习中常用的凸优化器均可用于优化铰链损失。它不是可微函数，但拥有一个关于线性 SVM 模型参数 Template:Math 的次导数

\frac{\partial ℓ}{\partial w_{i}} = {\begin{matrix} - t \cdot x_{i} & if t \cdot y < 1 \\ 0 & otherwise \end{matrix}

其评分函数为 $y = 𝐰 \cdot 𝐱$

三个铰链损失的变体 Template:Math：“普通变体”（蓝色），平方变体（绿色），以及 Rennie 和 Srebro 提出的分段平滑变体（红色）。

然而，由于铰接损失在 $t y = 1$ 处不可导， Zhang 建议在优化时可使用平滑的变体建议，^[7] 如Rennie 和 Srebro 提出的分段平滑^[8]

ℓ (y) = {\begin{matrix} \frac{1}{2} - t y & if t y \leq 0, \\ \frac{1}{2} (1 - t y)^{2} & if 0 < t y \leq 1, \\ 0 & if 1 \leq t y \end{matrix}

或平方平滑。

ℓ_{γ} (y) = {\begin{matrix} \frac{1}{2 γ} \max (0, 1 - t y)^{2} & if t y \geq 1 - γ \\ 1 - \frac{γ}{2} - t y & otherwise \end{matrix}

Modified Huber loss $L$ 是 $γ = 2$ 时损失函数的特例，此时 $L (t, y) = 4 ℓ_{2} (y)$ 中。

参考文献

Template:Reflist

↑ Template:Cite journal
↑ Template:Cite book
↑ ^3.0 ^3.1 Template:Cite journal 引用错误：<ref>标签无效；同一name（名称）“unifiedview”以不同内容定义了多次
↑ Template:Cite journal
↑ Template:Cite conference
↑ Template:Cite conference
↑ Template:Cite conference
↑ Template:Cite conference

[1] Template:Cite journal

[duan2005-2] Template:Cite book

[unifiedview-3] 3.0 ^3.1 Template:Cite journal 引用错误：<ref>标签无效；同一name（名称）“unifiedview”以不同内容定义了多次

[4] Template:Cite journal

[5] Template:Cite conference

[6] Template:Cite conference

[zhang-7] Template:Cite conference

[8] Template:Cite conference

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Hinge loss

扩展

优化算法

参考文献

导航菜单

搜索