Classification linéaire via SVM

On s'intéresse à un problème de classification binaire du type $f(x) \in \{-1, 1\}$, avec $x \in \mathbb{R}^N$. On suppose connu un ensemble d'apprentissage $\{(x_1, l_1), \dots, (x_p, l_p) \} \sub \mathbb{R}^N \times \{-1, 1\}$. On souhaite maintenant prendre un point $x \in \mathbb{R}^N$ et décider du label qui lui sera associé. Si les données sont linéairements séparables, alors on peut noter: $$ h(x) = \omega^\top x + w_0 \quad\text{avec}\quad \omega \in \mathbb{R}^N \quad\text{et}\quad \omega_0 \in \mathbb{R} $$

tel que pour $x \in \mathbb{R}^N$, si $h(x)\geq 0$ alors $f(x)=1$, sinon, $f(x)=-1$. Ainsi, l'hyperplan affine $H= \{x \in \mathbb{R}^N: \omega^\top x + \omega_0 = 0\}$ agit comme une frontière de décision. En effet, $\nabla h = \omega$ est perpendiculaire à la ligne de niveau $H = h^{-1}\{0\}$. Donc $h$ croit le plus vite dans la direction perpendiculaire à la frontière de décision.

Vous pouvez essayer, à la main, de trouver un hyperplan qui sépare les points d'entrainement ci-dessous. En fait, SVM fait exactement ceci.

$a$ = 0.0

$b$ = 0.0

Il existe une infinité d'hyperplans affines qui séparent les points $x_1, \dots, x_p$ d'entrainement. On va choisir celui qui maximise la distance au points le plus proche. De cette manière, il sera "au milieu" des 2 classes et ça permettra d'avoir une meilleure tolérance sur les données de tests. La distance du point le plus proche à la frontière est $$ \underset{k \leq p}{\min} \| x_k - p_H(x_k) \| $$ On peut alors chercher l'hyperplan affine $H=H(\omega, \omega_0)$ qui maximise cette distance. $$ \underset{\omega,\; \omega_0}{\operatorname{argmax}}\;\; \underset{k}{\min} \| x_k - p_{H(\omega, \omega_0)}(x_k) \| $$

D'après le théorème de Pythagore, $x_k - p_H(x_k) \in H^\bot = \operatorname{vect}\omega$. Alors: $$ \begin{align*} x_k - p_{H(\omega, \omega_0)}(x_k) = \lambda \omega &\Rightarrow \omega^\top \left( x_k - p_{H(\omega, \omega_0)}(x_k)\right) = \lambda \| \omega \|^2 \\ &\Rightarrow \lambda = \frac{\omega^\top x_k + \omega_0}{\|\omega\|^2} \\ &\Rightarrow \| x_k - p_{H(\omega, \omega_0)}(x_k) \| = \frac{|\omega^\top x_k + \omega_0|}{\|\omega\|} \end{align*} $$ On a pour l'instant trouvé l'hyperplan qui maximise la distance au point le plus proche. Il manque à ajouter la contrainte de séparabilité qui nous assure que $H$ est bien un hyperplan affine séparateur. Remarquons que $x_k$ est correctement classifié si $l_k (\omega^\top x_k + \omega_0) \geq 0$. En imposant cette condition pour tout $k \leq p$, l'hyperplan affine séparateur optimal $H_{\omega, \omega_0}$ est défini par: $$ \underset{\substack{\omega \in \mathbb{R}^N, \; \omega_0 \in \mathbb{R}\\ \forall k,\; l_k (\omega^\top x_k + \omega_0)\geq 0}}{\operatorname{argmax}} \left\{ \frac{1}{\| \omega \|} \,\underset{k \leq p}{\min}\, |\omega^\top x_k + \omega_0| \right\} $$ En remarquant que si $H_{\omega, \omega_0}$ est optimal alors pour tout $\alpha > 0$, $H_{\alpha \omega, \alpha \omega_0}$ l'est également, et représente de plus le même hyperplan géométrique, on peut sans perdre de généralité fixer un unique représentant par classe d'équivalence. On note $$ \alpha(\omega, \omega_0) = \frac{1}{\underset{k \leq p}{\min} | \omega^\top x_k + \omega_0 |} $$ Ce qui fait que cet hyperplan affine optimal séparateur normalisé $\tilde{H}_{\omega, \omega_0}$ est défini par plus simplement: $\operatorname{argmax} \| \omega \|^{-1}$ et la contrainte $\forall k,\; l_k(\omega^\top x_k + \omega_0)\geq 1$. Cherche cet hyperplan revient donc à resoudre le problème suivant: $$ \boxed{ \text{Minimiser}\quad \frac{1}{2} \| \omega \|^2 \quad\text{avec}\quad \forall k \in \llbracket 1, p \rrbracket,\; l_k(\omega^\top x_k + \omega_0)\geq 1 } $$