分類問題之損失函數

Template:Copyedit Template:Cleanup-jargon

在機器學習和最佳化領域中，分類問題之損失函數可以用來表達預測不準確之程度，其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間 $X$ 做為所有的輸入值，而向量空間 $Y = {- 1, 1}$ 做為所有的輸出值。我们希望能夠找到最佳的公式 $f : X \to ℜ$ 將 $\vec{x}$ 映射到 $y$ ^[1]。然而，由于信息不完整、雜訊、计算過程中的非确定性模块等因素，有可能會有相同的輸入值 $\vec{x}$ 映射到不同的輸出值 $y$ ^[2]。因此，這個學習過程的目的就是要最小化預期風險（更详细的介绍参见统计学习理论），預期風險之定義為：

I [f] = \int_{X \times Y}^{} V (f (\vec{x}, y)) p (\vec{x}, y) d \vec{x} d y

其中 $V (f (\vec{x}, y))$ 即損失函數，而 $p (\vec{x}, y)$ 為機率密度函數。而實作上概率分布 $p (\vec{x}, y)$ 通常是未知的，因此我们使用由数据样本空间中取出的 $n$ 個獨立且同分布（i.i.d.）的樣本點

S = {(\vec{x_{1}}, y_{1}), . . ., (\vec{x_{n}}, y_{n})}

作为训练集，將樣本空間所得到的经验風險做為預期風險的替代，其定義為：

I_{S} [f] = \frac{1}{n} \sum_{i = 1}^{n} V (f (\vec{x_{i}}, y_{i}))

基於分類問題的二元性，可定義0-1函數做為匹配值之基準。因此損失函數為：

V (f (\vec{x}, y)) = H (- y f (\vec{x}))

其中 $H$ 為步階函數。然而損失函數並不是凸函數或平滑函數，是一種NP-hard的問題，因此做為替代，需要使用可以追蹤的機器學習演算法（透過凸損失函數）。

分類問題之界線

使用貝式定理，可以基於問題的二元性最佳化映射公式 $f^{*}$ 為：

f^{*} (\vec{x}) = {\begin{matrix} 1, & if p (1 ∣ \vec{x}) > p (- 1 ∣ \vec{x}) \\ - 1, & if p (1 ∣ \vec{x}) < p (- 1 ∣ \vec{x}) \end{matrix}

當 $p (1 ∣ \vec{x}) \neq p (- 1 ∣ \vec{x})$

簡化分類問題預期風險

\begin{matrix} I [f (x)] & = \int_{X \times Y}^{} V (f (\vec{x}, y)) p (\vec{x}, y) d \vec{x} d y \\ = \int_{X}^{} \int_{Y}^{} V (f (\vec{x}, y)) p (\vec{x}, y) p (\vec{x}) d y d \vec{x} \\ = \int_{X}^{} [V (- f (\vec{x}) p (1 ∣ x) + V (f (\vec{x}) p (- 1 ∣ x)] p (\vec{x}) d \vec{x} \\ = \int_{X}^{} [V (- f (\vec{x}) p (1 ∣ x) + V (f (\vec{x}) (1 - p (1 ∣ x))] p (\vec{x}) d \vec{x} \end{matrix}

平方損失

V (f (\vec{x}, y)) = (1 - y f (\vec{x}))^{2}

平方損失凸且平滑，但容易過度懲罰錯誤預測，導致收斂速度比邏輯損失和鏈結損失慢。它的優點為有助於簡化交叉驗證之正則化（regularization）。

最小化預期風險之映射函數為：

f_{S q u a r e}^{*} = 2 p (1 ∣ x) - 1

鏈結損失

V (f (\vec{x}), y) = \max (0, 1 - y f (\vec{x})) = | 1 - y f (\vec{x}) |_{+}

鏈結損失公式等同於支持向量機（SVM）的損失公式。鏈結損失凸但不平滑（在 $y f (\vec{x})) = 1$ 不可微分），因此不適用於梯度下降法和隨機梯度下降法，但適用次梯度下降法。最小化預期風險之映射函數為：

f_{S q u a r e}^{*} = 2 p (1 ∣ x) - 1

廣義平滑鏈結損失

f_{α}^{*} (z) = {\begin{matrix} \frac{α}{α + 1} & if z < 0 \\ \frac{1}{α + 1} z^{α + 1} - z + \frac{α}{α + 1} & if 0 < z < 1 \\ 0 & if z \geq 1 \end{matrix}

其中 $z = y f (\vec{x})$

邏輯損失

V (f (\vec{x}), y) = \frac{1}{\ln 2} \ln (1 + e^{- y f (\vec{x})})

適用於梯度下降法，但不會對錯誤預測做懲罰。最小化預期風險之映射函數為：

f_{Logistic}^{*} = \ln (\frac{p (1 ∣ x)}{1 - p (1 ∣ x)}) .

交叉熵損失

V (f (\vec{x}), t) = - t \ln (f (\vec{x})) - (1 - t) \ln (1 - f (\vec{x}))

其中 $t = (1 + y) / 2$ so that $t \in {0, 1}$ 屬於凸函數，適用於隨機梯度下降法。

指數損失

V (f (\vec{x}), y) = e^{- β y f (\vec{x})}

参考资料

Template:Refs

Template:Differentiable computing

[penn-1] Template:Citation

[mitlec-2] Template:Citation

[1]

[2]

分類問題之損失函數

目录

分類問題之界線

簡化分類問題預期風險

平方損失

鏈結損失

廣義平滑鏈結損失

邏輯損失

交叉熵損失

指數損失

参考资料

导航菜单

分類問題之損失函數

分類問題之界線

簡化分類問題預期風險

平方損失

鏈結損失

廣義平滑鏈結損失

邏輯損失

交叉熵損失

指數損失

参考资料

导航菜单

搜索