Normes et distances
Si les techniques quantitatives utilisent une notion récurrente, c’est bien celle de distance sur un ensemble. Seulement voilà, il en existe plusieurs mesures. La plus « universelle » est sans doute Sa Majesté la distance euclidienne : analyses factorielles, classifications, régressions, analyse, géométrie, algèbre... Elle est partout. Parfois en situation de monopole, parfois en concurrence avec d’autres… Normes Voyons d’abord ce que les mathématiciens appellent une « norme ». C’est une application (de Rn dans R+) qui possède des propriétés assez simples à comprendre. D’abord, si la norme d’un nombre ou, plus généralement, d’un vecteur est nulle, c’est que ce nombre ou ce vecteur est nul. Les autres propriétés peuvent être ainsi formalisées pour les vecteurs X et Y (la norme est indiquée par un encadrement de doubles barres) :
Cette inégalité est celle de Minkowski, encore appelée triangulaire (voir ci-dessous). Graphiquement, une norme permet de placer une figure géométrique dans un plan muni d'un repère « normé », et même orthonormé si les axes sont orthogonaux entre eux. On quitte la géométrie pure pour la géométrie analytique... La norme 1 est celle des valeurs absolues. Ainsi, la norme 1 du vecteur de R² (4 ; -3) est égale à la somme de |4| et de |-3|, soit 7. La norme 2 est la norme euclidienne. C’est la racine de la somme des carrés. Pour reprendre notre exemple, la norme 2 du vecteur (4 ; -3) est égale à :
La distance entre l’origine et le point (4 ; -3) est donc de 5. Ceci nous amène bien sûr au théorème de Pythagore. Le carré de l’hypoténuse qui mesure 5 est égal à la somme des carrés des côtés qui mesurent 4 et 3. Enfin, la norme 3, ou uniforme, ou encore infinie, est la valeur absolue maximale. Distances Revenons à nos distances, associées aux normes. La mesure ne s’applique plus à un vecteur mais à l’éloignement qui existe entre deux points de l’espace vectoriel. D'évidentes propriétés découlent de celles des normes : la distance d’un point à lui-même est nulle, la distance entre deux points distincts est positive, la distance entre X et Y est égale à celle qui va de Y à X et si l’on passe par un point C, on ne raccourcit pas la distance entre les points A et B. C'est l' inégalité triangulaire. On voit bien sur le dessin ci-dessous. Où que B puisse se trouver, AC ≤ AB + BC (l'égalité se vérifiant lorsque B se situe sur le segment [AB] et l'inégalité stricte partout ailleurs).
La valeur absolue permet de définir la distance de Manhattan qui fait partie des quelques distances utilisables en classification. La distance euclidienne entre un point X (x1 ; x2… ; xn) et un point Y (y1 ; y2… ; yn) est, vous l’avez deviné :
C’est une notion essentielle pour l’étude des fonctions de deux variables ou plus. En langage courant, c’est la distance « à vol d’oiseau ». En statistiques, on utilise la distance au carré (on "oublie" la racine), ce qui en facilite la décomposition (voir page inertie). La distance de Minkowski, ou p-distance, généralise l’euclidienne : c’est la racine pème de la somme des valeurs absolues des écarts à la puissance p. Enfin, la norme 3 est celle de la distance de Tchebichev. C’est la distance de Minkowski où p est infini. Un espace métrique est un ensemble dans lequel existent des distances. Voir un exemple où ces différentes normes sont utilisées en page voisinage et boules.
|






