Analyse en Composantes Principales sur variables
Une supposition : vous avez accès à une base de données de forte volumétrie et vous souhaitez en tirer des informations pertinentes pour votre service ou votre direction. Non, je ne vous parle pas d’un tableau avec des pourcentages et d’un histogramme pour l’illustrer, je vous parle d’une analyse multidimensionnelle, de détection de liaisons vous permettant de caractériser les traits de votre clientèle afin d’adapter les variables du marketing-mix, de booster votre knowledge management grâce au data mining, bref, de passer à la vitesse supérieure. L’ACP sur les variables constitue à cet égard un outil puissant. Davantage usitée que l'ACP sur les individus et souvent restituée à sa suite par les logiciels, l’ACP sur les variables permet de remplacer les caractères numériques d’une population par d’autres, moins nombreux et parfaitement décorrélés entre eux. Le hic, c’est que ces « nouveaux » caractères ne mesurent pas quelque chose de prédéfini. C’est à l’analyste de leur trouver une signification. L’ACP sur variables est une analyse factorielle. Graphiquement, les points sont projetés sur des axes et leurs nouvelles coordonnées sont les valeurs de ces fameux caractères : les « composantes principales » (plus de détails sur la page ACP sur les individus et encore davantage dans les excellents livres sur le sujet). L’ACP précède souvent une classification voire une régression multiple. Intuitivement, il est un peu plus difficile de percevoir ce que peut être un espace des variables qu’un espace des individus. Si l’on prend l’exemple d’un million de prospects décrits par vingt variables quantitatives, ces dernières se situent dans un espace à un million de dimensions… Pas de panique. L’ACP consistant en une réduction de dimensionnalité, l’analyste peut généralement visualiser l’essentiel de l’espace des variables sur un, deux, voire trois plans factoriels. Dans l’exemple en bas de page, on utilise un seul plan (axes 1 et 2) pour la démonstration mais l’ajout d’un second aurait suffit pour obtenir une bonne analyse (axes 1 et 3). Les points qui représentent graphiquement les variables apparaissent dans une hyper sphère de rayon = 1, c'est-à-dire qu’il devrait suffire d’examiner quelques points « encerclés » pour visualiser les proximités et les éloignements entre variables. Evidemment, la visualisation n’a d’intérêt que si les variables sont nombreuses : si vous n’en avez que trois à analyser, une matrice des corrélations fait aussi bien l’affaire ! Pourquoi les variables se situent-elles dans une hyper sphère de rayon 1 ? Parce qu’elles sont standardisées et que la norme d’une variable, c’est-à-dire sa « longueur », est égale à son écart-type. Or, elles « rayonnent » à une distance d’un écart-type de l’origine (et non du centre de gravité comme c’est le cas avec l’ACP sur individus) et elles sont réduites (voir page boules et voisinage). Dans un plan, les variables se trouvent donc à l’intérieur d’un disque. Par ailleurs, si vous percevez bien le lien qui existe entre mesures de dispersion (variance et écart-type) et espace vectoriel, vous avez deviné que le produit scalaire de deux variables est égal à leur covariance (nous travaillons toujours sur des variables centrées et réduites). De plus, nous savons depuis le lycée que :
Si les deux normes sont égales à 1, le produit scalaire est évidemment égal au cosinus. Et si les écarts-types de deux variables sont égaux à un, alors le coefficient de corrélation entre ces deux variables est égal à leur covariance. Donc, l’angle qui existe entre deux variables (mesuré par le cosinus) est égal à leur coefficient de corrélation ! CQFD. Tout va bien ? Pas trop de formules ? Le but de l’ACP est alors de déterminer l’axe qui maximise la somme des carrés des projections, donc des cosinus carrés, donc des coefficients de détermination entre variables. Puis un deuxième axe factoriel orthogonal au premier passant par le centre de gravité. Et ainsi de suite. Je n’expliciterai pas ici les mécanismes de l’ACP, qui font appel à l’algèbre linéaire. Petite précision toutefois : si le coefficient de corrélation utilisé est celui de Pearson, il existe aussi des coefficients de corrélation des rangs (Spearman ou Kendall) sur lesquels peuvent s’appuyer l’ACP. L'ACP des rangs n’est pas très utilisée malgré de gros avantages. Nous avons maintenant les éléments pour comprendre les sorties habituelles des logiciels. Le disque évoqué ci-dessus est parfois appelé « cercle des corrélations » car il permet d’apprécier visuellement les angles qui existent entre les variables (on a d’ailleurs l’habitude de représenter les vecteurs sous forme de flèches plutôt que de points, contrairement à l’exemple de Tanagra ci-dessous). Si deux points sont sur une même droite, il n’y a pas d’angle et la corrélation est parfaite. Autrement dit, cos 0 = 1 (on retrouve cette fois le programme de classe de troisième !). Contributions à un axe. Mais un petit exemple vaut mieux qu’un long discours. Soit un tableau de contingence sur lequel figurent les campings et hôtels, par catégorie (9 variables) et selon les 22 régions de France, au 01/01/07 (source : INSEE, direction du tourisme). Question : existe-t-il des différences structurelles entre les régions ? Si oui, plutôt en fonction du type d’hébergement (camping ou hôtel) ou du niveau de confort ?
Les sorties ci-dessous ont été réalisées avec le logiciel libre Tanagra (C1 signifie Camping 1 étoile, H0 signifie Hôtel 0 étoile, etc.) :
Manifestement, un effet taille pollue notre ACP. Réalisons une nouvelle ACP mais cette fois sur les pourcentages. Chaque région vaut 100 %, Rhône-Alpes ayant alors le même poids que Champagne-Ardennes au lieu de lui être huit fois plus importante. Seules les différences de structure d’une région à l’autre nous intéressent. Le premier plan factoriel est beaucoup plus intéressant :
Non seulement les campings et les hôtels sont éloignés sur le premier axe, ce qui laisse penser qu’il existe des régions « plutôt campings » et des régions « plutôt hôtels », mais certaines catégories sont elles aussi bien séparées. En particulier, les hébergements « bas de gamme » (C1 et H0) semblent caractériser certaines régions plutôt que d’autres. Devrait-on observer d'autres axes ?
Oui, trois axes seront nécessaires pour expliquer convenablement la dispersion (ce que je ne ferai pas ici, à votre grand regret). Je n’ai pas restitué le tableau des contributions. Voir la page résultats d’une ACP sur les variables pour une étude plus complète. Conclusion : on a transformé un tableau en information. Le traitement aurait été le même en utilisant la base de données d’une banque ou d’une société d’assurances comportant des millions de clients et les montants associés à des dizaines de produits. La « proximité » de certains produits permettrait alors des actions marketing efficaces car dirigées sur les clients les plus réceptifs.
|







