直接从集合出发定义集合到平面的距离是相对困难的,所以通常会将它转化为点到平面的距离。对于样本点$(x_i,y_i)$而言,它到超平面$II$:$w*x_i+b=0$的相对距离即为:
$$ d^*(x_i,II) = | w \cdot x_i + b |$$
这里的相对距离$d^*$有一个更学术一点的称谓:函数间隔( Functional Margin)。函数间隔有一个比较明显的缺陷就是,当$w$和$b$等比例变大或变小时,虽然超平面不会改变,但是$d^*$却会随之等比例地变大或变小。为解决这个问题,可以比较自然地定义出所谓的儿何间隔(Geometic Distance):
$$d(x_i,II) = \frac{1}{||w||} \cdot d^*(x_i,II) = \frac{1}{||w||} \cdot | w \cdot x_i + b |$$
这里的$||w||$是$w$的欧氏范数。顾名思义,几何间隔描述的就是向量$x_i$到超平面的几何距离(欧氏距离),它不会随$w$和$b$的等比例变化而变化,是相对稳定且直观意义优良的距离的定义方法。SVM在训练过程中所引入的也正是各个样本点到当前分离超平面的几何距离。
在样本空间中,超平面可用如下方程来描述:
$$w^Tx+b=0$$
其中:
显然超平面可由法向量$w$和位移$b$唯一确定。
一般来说,一个点距离超平面的距离$d$的大小可以表示分类预测的确信程度。在超平面$w^Tx+b=0$确定的情况下,
$$d=\frac{|w^Tx+b|}{||w||} \to (1)$$
其中,$||w||$为$w$的范数。
当点A表示某一实例$x_i$,其类标记为$y_i=+1$。点A与超平面的距离记作$d_i$,那么:
$$d_i= +1 \cdot \frac{|w^Tx+b|}{||w||} \to (2)$$
当点A表示某一实例$x_i$,其类标记为$y_i=-1$。点A与超平面的距离记作$d_i$,那么
$$ d_i = -1 \cdot \frac{|w^Tx_i+b|}{||w||} \to (3)$$
一般地,点$x_i$与超平面的距离是:
$$d_i=y_i \cdot \frac{|w^Tx_i+b|}{||w||} \to (4)$$
公式(4)也被称为超平面关于样本点$x_i$的几何间隔。