mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Analyse en Composantes Principales sur les rangs

Les résultats d’une analyse en composantes principales (ACP) peuvent être faussés par d'incongrus outliers. Un moyen d’obtenir une analyse plus robuste est d’utiliser les rangs plutôt que les valeurs des variables. Prenons un exemple théorique : quatre individus prennent les valeurs (triées) 2, 5, 7 et 100. Ce dernier individu présente une valeur aberrante. Les corrélations se feront sur leur rang : 1, 2, 3 et 4. Ainsi, la valeur du quatrième (4 au lieu de 100) n’écrasera pas les autres observations.

D’autres raisons vous pousseront peut-être à vous aventurer sur ces axes factoriels peu fréquentés : des données ordinales ou des distributions qui s’éloignent de la normalité.

Il existe deux coefficients de corrélation des rangs, celui de Spearman et celui de Kendall. Donc, au lieu d’utiliser une matrice de corrélation de Pearson, on recourt à celles de Spearman ou de Kendall. Hormis le mode de calcul des coefficients, il n’existe aucune différence avec une ACP paramétrique, ni dans les calculs, ni dans l’interprétation.

Cette page donne les résultats d’une ACP sur les variables. Les données sont celles de la page Résultats d’une ACP sur les variables (source Boursorama. Chiffres 2005 en K euros, parfois estimés). D’une manière générale, les données « entreprises » présentent souvent de telles variations qu’une ACP des rangs se révèle plus efficace que l’ACP habituelle.

Exemple groupes US

Il existe une observation statistiquement aberrante : General Motors (en raison de sa colossale perte). Pour information, voici la matrice des corrélations de Pearson, obtenue par XLSTAT :

Maintenant, appréciez la différence avec les matrices de corrélation des rangs (on peut se demander où est la validité d’une ACP mais je vous rassure, c’est juste parce que l’effectif est faible !).

Spearman :

Matrice Spearman

Kendall :

Ces deux dernières présentent quelques écarts mais sans commune mesure avec la matrice de Pearson.

Les valeurs propres sont les suivantes :

Spearman : Valeurs propres Spearman

Kendall : Valeurs propres Kendall

Si l’on s’en tient au critère de Kaiser (valeurs propres > 1), les deux techniques suggèrent de ne retenir que trois axes (idem avec Pearson). Dans ce cas-ci, on retiendra plutôt la formule « Spearman » qui explique 89 % de l’inertie ; l’option « Kendall » nécessite quatre axes pour un même résultat…

Les valeurs propres de Spearman sont illustrées par le graphique ci-dessous.

Valeurs propres de Spearman

Extraits des autres informations obtenues par XLSTAT sur l’ACP de Spearman :

Vecteurs propres

Les contributions sont les suivantes :

Là encore, je vous invite à faire un aller-retour sur la page Résultats d’une ACP sur les variables pour constater la différence.

Enfin, j’illustrerai pour mémoire l'ACP sur les individus. Avec les coefficients de Spearman, le plan principal apparaît ainsi :

Plan factoriel

 

plus de livres (France)    plus de livres (Canada)