Understanding Support Vector Machines I
1. 前言
支持向量机(support vector machines, SVM)是一种二分类模型,基本做法是找到一个超平面把特征空间中的样本划分开来。李航老师的《统计学习方法》中把支持向量机分为三类:
- 线性可分支持向量机
- 线性支持向量机
- 非线性支持向量机
第一类指样本在特征空间中完全线性可分,这种情况非常理想,从该条件下入手推导公式容易理解;第二类指样本不是完全线性可分,可能存在噪声,所以需要对求解算法进行一点点改进;第三种指分类问题是非线性的,需要借助核技巧(kernel trick)。本文介绍前两种,后续博客中再介绍第三种。
学习支持向量机之前还有一个简单的概念需要理解:超平面(hyperplane),它是指在\(n\)维空间中,\(n-1\)维的子空间。例如线的超平面是点,面的超平面是线,三维空间的超平面是面。
2. 线性可分支持向量机
先从简单的条件出发,考虑样本线性可分,假设给定大小为\(N\)的数据集:
\[T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}\]其中,\(x_i \in \mathbb{R}^n\),\(y_i \in \{+1, -1\}\),\(i=1, 2, \cdots, N\),\(x_i\)为第\(i\)个样本在特征空间中的特征向量。
2.1 硬间隔最大化
考虑如上二维情形,我们希望找到一个超平面(如红色虚线所示)使得正负样本尽可能被划分开,其中\(w\)是超平面的法向量,对于任意样本\(x\),它在\(w\)上的投影表示为:\(w \bullet x\),如果投影大于某个常数,即\(w \bullet x \geq b\),则为正样本,反之则为负样本。
那么基本决策如下:
\[\begin{aligned} w \bullet x + b &\geq 0, \ y = 1 \\ w \bullet x + b &< 0, \ y = -1 \end{aligned} \tag{2.1}\]对样本\(x_i\),其标签为\(y_i\),将式\(2.1\)简化得到:
\[(w \bullet x_i + b) * y_i \geq 0 \tag{2.2}\]我们可以将式\(2.2\)的条件设置得更加苛刻:
\[(w \bullet x_i + b) * y_i \geq 1 \tag{2.3}\]式\(2.3\)计算得到的结果即是样本点\(x_i\)到超平面的距离,表示为:
\[\gamma_i = (w \bullet x_i + b) * y_i \tag{2.4}\]此时将\(w\),\(b\)变为\(2w\),\(2b\),是不会影响优化过程的,所以一般限制\(\| w \| = 1\)。
现在的目的是找到一个超平面,使得正负样本与它的距离尽可能大(如图红色实线所示),假设红色实线上有负样本点\(x_{-}\)和正样本点\(x_{+}\),它们是距离超平面最近的点,那么这个超平面划分的宽度\(D\)为(\(w\)在向量\(\vec{x_{-}x_{+}}\)上的投影):
\[D = (x_{+} - x_{-}) * \frac{w}{\| w \|} \tag{2.5}\]观察式\(2.4\),不妨假设\(\gamma_i\)为1,得到:
\[\begin{aligned} w \bullet x_{+} &= 1 - b \\ - w \bullet x_{-} &= 1 + b \end{aligned} \tag{2.6}\]将式\(2.6\)代入式\(2.5\),得到:
\[D = \frac{2}{\| w \|} \tag{2.7}\]最大化\(D\)等价于最小化\(\frac{1}{2} \| w \|^2\)。
所以,最终的优化目标函数如下:
\[\begin{aligned} & \min_{w, b} \frac{1}{2} \| w \|^2 \\ & s.t. (w \bullet x_i + b) * y_i - 1 \geq 0, \ i = 1, 2, \cdots, N \end{aligned} \tag{2.8}\]2.2 求解对偶问题(拉格朗日函数)
为了求解式\(2.8\)的最优化问题,将它作为原始最优化问题,应用拉格朗日对偶性,通过求解对偶问题(dual problem)来得到原始问题(primal problem)的最优解,这么做的优点是:1. 对偶问题往往更容易求解;2. 自然引入核函数,进而推广到非线性分类问题。
构建拉格朗日函数(Lagrange function),对每一个不等式约束引入拉格朗日乘子(Lagrange multiplier)\(\alpha_i \geq 0\),\(i=1, 2, \cdots, N\),拉格朗日函数定义如下:
\[L(w, b, \alpha) = \frac{1}{2} \| w \|^2 - \sum_{i=1}^N \alpha_i y_i (w \bullet x_i + b) + \sum_{i=1}^{N} \alpha_i \tag{2.9}\]其中\(\alpha = (\alpha_1, \alpha_2, \cdots, \alpha_N)^T\)为拉格朗日乘子向量。
根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:
\[\max_{\alpha} \min_{w, b} L(w, b, \alpha)\]第一步求\(\min_{w, b} L(w, b, \alpha)\),令函数对\(w\)和\(b\)偏导为0:
\[\begin{aligned} \frac{\partial L}{\partial w} &= w - \sum_{i=1}^{N}\alpha_i y_i x_i = 0 \\ \frac{\partial L}{\partial b} &= -\sum_{i=1}^{N} \alpha_i y_i = 0 \end{aligned}\]得到:
\[\begin{aligned} & w = \sum_{i=1}^{N}\alpha_i y_i x_i \\ & \sum_{i=1}^{N} \alpha_i y_i = 0 \end{aligned} \tag{2.10}\]到这一步我们可以观察到\(w\)其实是由所有样本的特征向量构成的,其参与的比例由\(\alpha\)控制。
将式\(2.10\)代入式\(2.9\),得到:
\[\begin{aligned} \min_{w, b} L(w, b, \alpha) &= \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) - \sum_{i=1}^{N} \alpha_i y_i ((\sum_{j=1}^{N}\alpha_j y_j x_j) \bullet x_i + b) + \sum_{i=1}^{N}\alpha_i \\ &= -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) + \sum_{i=1}^{N}\alpha_i \end{aligned} \tag{2.11}\]第二步求\(\max_{\alpha} \min_{w, b} L(w, b, \alpha)\),即对偶问题:
\[\begin{aligned} \max_{\alpha} & -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) + \sum_{i=1}^{N}\alpha_i \\ s.t. & \sum_{i=1}^{N} \alpha_i y_i = 0 \\ & \alpha_i \geq 0, \ i = 1, 2, \cdots, N \end{aligned} \tag{2.12}\]将最大化转变为最小化:
\[\begin{aligned} \min_{\alpha} & \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) - \sum_{i=1}^{N}\alpha_i \\ s.t. & \sum_{i=1}^{N} \alpha_i y_i = 0 \\ & \alpha_i \geq 0, \ i = 1, 2, \cdots, N \end{aligned} \tag{2.13}\]所以利用支持向量机求解线性可分问题转变为求解式\(2.13\),在计算得到最优解\(\alpha^* = (\alpha_1^*, \alpha_2^*, \cdots, \alpha_N^*)^T\)后,可以进一步得到\(w^*\):
\[w^* = \sum_{i=1}^{N} \alpha_i^* y_i x_i\]通过式\(2.4\)可以进一步得到\(b^*\):
\[b^* = y_j - w^* \bullet x_j = y_j - \sum_{i=1}^{N} \alpha^* y_i (x_i \bullet x_j)\]最后得到最优超平面:
\[w^* \bullet x + b^* = 0 \tag{2.14}\]2.3 支持向量
所谓支持向量,其实就是训练数据集中对应于\(\alpha_i^* > 0\)的样本\(x_i \in \mathbb{R}^n\),如果\(\alpha_i^* = 0\),那么根据式\(2.10\),对应的样本不会对\(w\)有任何贡献,所以不属于支持向量。
3. 线性支持向量机
通常情况下,训练数据中有一些特异点(outlier),将这些特异点除去后,剩下大部分样本点组成的集合是线性可分的,这意味着存在一些样本不满足式\(2.3\)。
3.1 软间隔最大化
为了解决这个问题,对每个样本点\((x_i, y_i)\)引入一个松弛变量\(\xi_i \geq 0\),使得约束条件变为:
\[(w \bullet x_i + b) * y_i \geq 1 - \xi_i \tag{3.1}\]同时,对每个松弛变量\(\xi_i\)施加惩罚,目标函数变为:
\[\frac{1}{2} \| w \|^2 + C \sum_{i=1}^{N} \xi_i\]其中,\(C>0\)为常数,作为惩罚参数。
所以,对应于式\(2.8\),此时的最优化原始问题为:
\[\begin{aligned} \min_{w, b, \xi} & \frac{1}{2} \| w \|^2 + C \sum_{i=1}^{N} \xi_i \\ s.t. & (w \bullet x_i + b) * y_i - 1 + \xi_i \geq 0, \ i = 1, 2, \cdots, N \\ & \xi_i \geq 0, \ i = 1, 2, \cdots, N \end{aligned} \tag{3.2}\]构建拉格朗日函数为:
\[L(w, b, \xi, \alpha, \mu) = \frac{1}{2} \| w \|^2 + C \sum_{i=1}^{N} \xi_i - \sum_{i=1}^{N} \alpha_i (y_i(w \bullet x_i + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i \tag{3.3}\]其中,\(\alpha_i \geq 0\),\(\mu_i \geq 0\)。
首先求\(L(w, b, \xi, \alpha, \mu)\)对\(w\),\(b\),\(\xi\)的极小,求偏导并令其为0:
\[\begin{aligned} \frac{\partial L}{\partial w} &= w - \sum_{i=1}^{N}\alpha_i y_i x_i = 0 \\ \frac{\partial L}{\partial b} &= - \sum_{i=1}^{N} \alpha_i y_i = 0 \\ \frac{\partial L}{\partial \xi} &= C - \alpha_i - \mu_i = 0 \end{aligned} \tag{3.4}\]得到:
\[\begin{aligned} w &= \sum_{i=1}^{N}\alpha_i y_i x_i \\ & \sum_{i=1}^{N} \alpha_i y_i = 0 \\ C & - \alpha_i - \mu_i = 0 \end{aligned} \tag{3.5}\]将式\(3.5\)代入式\(3.3\),得到:
\[\min_{w, b, \xi} L(w, b, \xi, \alpha, \mu) = -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) + \sum_{i=1}^{N} \alpha_i \tag{3.6}\]再对\(\min_{w, b, \xi} L(w, b, \xi, \alpha, \mu)\)求\(\alpha\)的极大,即得到对偶问题:
\[\begin{aligned} \max_\alpha & -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) + \sum_{i=1}^{N} \alpha_i \\ s.t. & \sum_{i=1}^{N} \alpha_i y_i = 0 \\ & C - \alpha_i - \mu_i = 0 \\ & \alpha_i \geq 0 \\ & \mu_i \geq 0, \ i=1, 2, \cdots, N \end{aligned} \tag{3.7}\]化简式\(3.7\),得到:
\[\begin{aligned} \min_\alpha & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \bullet x_j) - \sum_{i=1}^{N} \alpha_i \\ s.t. & \sum_{i=1}^{N} \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C, \ i=1, 2, \cdots, N \end{aligned} \tag{3.8}\]以上就是带有松弛变量的支持向量机的公式推导,本质上就是在最优化问题中多了一个限制,构建拉格朗日函数过程中多加一项,并且在推导过程中不断化简。
参考
《统计学习方法》, 李航
Hyperplane
MIT 6.034 Artificial Intelligence, Fall 2010