设超平面为$(w,b)$,样本空间中任意点$x$到超平面$(w,b)$的距离可以写为:
$$r=\frac{|w^T+b|}{||w||}$$
如果超平面$(w,b)$能将训练样本正确的分类,即对于$(x_i,y_i) \in D$,若$y_i = +1$,则有$w^Tx_i+b > 0$ ;若$y_i = -1$,则有$w^Tx_i+b > 0$。令
$$ \left \{ \begin{aligned} w^Tx_i + b \geqslant +1, y_i = +1; \\ w^Tx_i + b \leqslant -1, y_i = -1; \end {aligned} \right. $$
如下图所示,距离超平面最近的这几个训练样本点使上式的等号成立,它们被称为“支持向量”(support vector),两个异类支持向量到超平面的距离之后为:
$$\gamma = \frac{2}{||w||}$$
它被称为“间隔”(margin)
想要找到具有“最大间隔”的划分超平面,也就是要找到满足上式中约束的参数$w$和$b$,使得$\gamma$最大,即:
$$\underset{w,b}{max}\frac{2}{||w||}$$
$$s.t. y_i(w^Tx_i+b) \geqslant 1,i=1,2,...m$$
显然,为了最大化问题,仅需要最大化$||w||^-1$,等价于最小化$||w||^2$,于是可重写为:
$$\underset{w,b}{min}\frac{1}{2}||w||^2$$
$$s.t. y_i(w^Tx_i+b) \geqslant 1,i=1,2,...m$$
这就是支持向量机的基本模型。