序列最小优化算法

Template:Infobox Algorithm 序列最小优化算法（Template:Lang en, SMO）是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的Template:Link-en于1998年发明^[1]，目前被广泛使用于SVM的训练过程中，并在通行的SVM库LIBSVM中得到实现。^[2]^[3] 1998年，SMO算法发表在SVM研究领域内引起了轰动，因为先前可用的SVM训练方法必须使用复杂的方法，并需要昂贵的第三方二次规划工具。而SMO算法较好地避免了这一问题。^[4]

问题定义

Template:Main SMO算法主要用于解决支持向量机目标函数的最优化问题。考虑数据集 $(𝐱_{𝟏}, y_{1}), \dots, (𝐱_{𝐧}, y_{n})$ 的二分类问题，其中 $𝐱_{𝐢}$ 是输入向量， $y_{i} \in {- 1, 1}$ 是向量的类别标签，只允许取两个值。一个软间隔支持向量机的目标函数最优化等价于求解以下二次规划问题的最大值：

W = \max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} y_{j} K (x_{i}, x_{j}) α_{i} α_{j},

满足：

0 \leq α_{i} \leq C, for i = 1, 2, \dots, n,

\sum_{i = 1}^{n} y_{i} α_{i} = 0,

其中， $C$ 是SVM的参数，而 $K (𝐱_{𝐢}, 𝐱_{𝐣})$ 是核函数。这两个参数都需要使用者制定。

算法

SMO是一种解决此类支持向量机优化问题的迭代算法。由于目标函数为凸函数，一般的优化算法都通过梯度方法一次优化一个变量求解二次规划问题的最大值，但是，对于以上问题，由于限制条件 $\sum_{i = 1}^{n} y_{i} α_{i} = 0$ 存在，当某个 $α_{i}$ 从 $α_{i}^{o l d}$ 更新到 $α_{i}^{n e w}$ 时，上述限制条件即被打破。为了克服以上的困难，SMO采用一次更新两个变量的方法。

数学推导

假设算法在某次更新时更新的变量为 $α_{1}$ 和 $α_{2}$ ，则其余变量都可以视为常量。为了描述方便，规定

K_{i j} = K (𝐱_{𝐢}, 𝐱_{𝐣}), f (𝐱_{𝐢}) = \sum_{j = 1}^{n} y_{j} α_{j} K_{i j} + b,

v_{i} = f (𝐱_{𝐢}) - \sum_{j = 1}^{2} y_{j} α_{j} K_{i j} - b

因而，二次规划目标值可以写成

\begin{matrix} W (α_{1}, α_{2}) & = & \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} y_{i} y_{j} K (x_{i}, x_{j}) α_{i} α_{j} \\ = & α_{1} + α_{2} - \frac{1}{2} K_{11} α_{1}^{2} - \frac{1}{2} K_{22} α_{2}^{2} - y_{1} y_{2} K_{12} α_{1} α_{2} \\ - y_{1} α_{1} v_{1} - y_{2} α_{2} v_{2} + constant \end{matrix}

由于限制条件 $\sum_{i = 1}^{n} y_{i} α_{i} = 0$ 存在，将 $α_{3}, \dots, α_{n}, y_{3}, \dots, y_{n}$ 看作常数，则有 $α_{1} y_{1} + α_{2} y_{2} = C$ 成立（ $C$ 为常数）。由于 $y_{i} \in {- 1, 1}$ ，从而 $α_{1} = γ - s α_{2}$ （ $γ$ 为变量 $y_{1} C$ ， $s = y_{1} y_{2}$ ）。取 $α_{2}$ 为优化变量，则上式又可写成

\begin{matrix} W (α_{2}) & = & γ - s α_{2} + α_{2} - \frac{1}{2} K_{11} (γ - s α_{2})^{2} - \frac{1}{2} K_{22} α_{2}^{2} \\ - s K_{12} (γ - s α_{2}) α_{2} - y_{1} (γ - s α_{2}) v_{1} - y_{2} α_{2} v_{2} + constant \end{matrix}

对 $α_{2}$ 求偏导以求得最大值，有

\begin{matrix} \frac{\partial W (α_{2})}{\partial α_{2}} & = & - s + 1 + s K_{11} γ - K_{11} α_{2} - K_{22} α_{2} + 2 K_{12} α_{2} - s K_{12} γ \\ + y_{2} v_{1} - y_{2} v_{2} = 0 \end{matrix}

因此，可以得到

α_{2}^{n e w} = \frac{y_{2} (y_{2} - y_{1} + y_{1} γ (K_{11} - K_{12}) + v_{1} - v_{2})}{K_{11} + K_{22} - 2 K_{12}}

规定误差项 $E_{i} = f (𝐱_{i}) - y_{i}$ ，取 $γ = α_{1}^{o l d} + s α_{2}^{o l d}$ ，并规定 $K = K_{11} + K_{22} - 2 K_{12}$ ，上述结果可以化简为

α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{K}

再考虑限制条件 $0 ⩽ α_{i} ⩽ C$ ， $(α_{1}, α_{2})$ 的取值只能为直线 $α_{1} y_{1} + α_{2} y_{2} = γ$ 落在 $[0, C] \times [0, C]$ 矩形中的部分。因此，具体的SMO算法需要检查 $α_{2}^{n e w}$ 的值以确认这个值落在约束区间之内。^[1]^[5]

算法框架

SMO算法是一个迭代优化算法。在每一个迭代步骤中，算法首先选取两个待更新的向量，此后分别计算它们的误差项，并根据上述结果计算出 $α_{2}^{n e w}$ 和 $α_{1}^{n e w}$ 。最后再根据SVM的定义计算出偏移量 $𝐛$ 。对于误差项而言，可以根据 $α_{1}^{n e w}$ 、 $α_{2}^{n e w}$ 和 $b$ 的增量进行调整，而无需每次重新计算。具体的算法如下：

1 随机数初始化向量权重 $α_{i}$ ，并计算偏移 $b$ 
2 初始化误差项 $E_{i}$ 
3 选取两个向量作为需要调整的点
4 令 $α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{K}$ 
5 如果 $α_{2}^{n e w} > V$ 
6     令 $α_{2}^{n e w} = V$ 
7 如果 $α_{2}^{n e w} < U$ 
8     令 $α_{2}^{n e w} = U$ 
9 令 $α_{1}^{n e w} = α_{1}^{o l d} + y_{1} y_{2} (α_{2}^{o l d} - α_{2}^{n e w})$ 
10 利用更新的 $α_{1}^{n e w}$ 和 $α_{2}^{n e w}$ 修改 $E_{i}$ 和 $b$ 的值
11 如果达到终止条件，则停止算法，否则转3

其中， $U$ 和 $V$ 为 $α_{2}^{n e w}$ 的下界和上界。特别地，有

U = {\begin{matrix} \max {0, α_{2}^{o l d} - α_{1}^{o l d}} & y_{1} y_{2} = - 1 \\ \max {0, α_{1}^{o l d} + α_{2}^{o l d} - C} & y_{1} y_{2} = 1 \end{matrix}, V = {\begin{matrix} \min {C, C + α_{2}^{o l d} - α_{1}^{o l d}} & y_{1} y_{2} = - 1 \\ \min {C, α_{2}^{o l d} + α_{1}^{o l d}} & y_{1} y_{2} = 1 \end{matrix}

这一约束的意义在于使得 $α_{1}^{n e w}$ 和 $α_{2}^{n e w}$ 均位于矩形域 $[0, C] \times [0, C]$ 中。^[5]

优化向量选择方法

可以采用启发式的方法选择每次迭代中需要优化的向量。第一个向量可以选取不满足支持向量机KKT条件的向量，亦即不满足

y_{i} f (𝐱_{i}) {\begin{matrix} > 1 & α_{i} = 0 \\ = 1 & 0 < α_{1} < C \\ < 1 & α_{i} = C \end{matrix}

的向量。而第二个向量可以选择使得 $| E_{1} - E_{2} |$ 最大的向量。^[5]

终止条件

SMO算法的终止条件可以为KKT条件对所有向量均满足，或者目标函数 $W (α)$ 增长率小于某个阈值，即

\frac{W (α^{t + 1}) - W (α^{t})}{W (α^{t})} < T

^[5]

参考资料

Template:Reflist

参见

↑ ^1.0 ^1.1 Template:Citation
↑ Chih-Chung Chang and Chih-Jen Lin (2001). LIBSVM: a Library for Support Vector Machines Template:Wayback.
↑ Luca Zanni (2006). Parallel Software for Training Large Scale Support Vector Machines on Multiprocessor Systems Template:Wayback.
↑ Template:Citation
↑ ^5.0 ^5.1 ^5.2 ^5.3 Template:Citation

[platt-1] 1.0 ^1.1 Template:Citation

[2] Chih-Chung Chang and Chih-Jen Lin (2001). LIBSVM: a Library for Support Vector Machines Template:Wayback.

[3] Luca Zanni (2006). Parallel Software for Training Large Scale Support Vector Machines on Multiprocessor Systems Template:Wayback.

[4] Template:Citation

[fast-5] 5.0 ^5.1 ^5.2 ^5.3 Template:Citation

[1]

[2]

[3]

[4]

[5]

序列最小优化算法

目录

问题定义

算法

数学推导

算法框架

优化向量选择方法

终止条件

参考资料

参见

导航菜单

序列最小优化算法

问题定义

算法

数学推导

算法框架

优化向量选择方法

终止条件

参考资料

参见

导航菜单

搜索