Agrégation des classes d'une CAH
La classification ascendante hiérarchique (CAH) est une technique qui permet de distinguer au sein d’un échantillon des sous-populations aussi homogènes que possible et d’en mesurer les proximités, à partir de variables quantitatives. Les longueurs de ces distances sont utilisées afin d’établir une classification en arborescence. Un des problèmes rencontrés est qu’il n’existe pas de méthode de mesure infaillible. On sait que des observations comportant n variables constituent k sous-nuages de points aux contours en principe flous et de formes pas toujours simples dans un espace à n dimensions. Mais tel instrument efficace pour mesurer un éloignement entre deux formes laissera à désirer pour mesurer un éloignement entre deux autres formes… Neuf méthodes sont mentionnées ci-dessous. Les options SAS qui sont indiquées sont celles de la proc CLUSTER. La méthode de Ward : c’est la méthode la plus courante. Elle consiste à réunir les deux clusters dont le regroupement fera le moins baisser l’inertie interclasse. C’est la distance de Ward qui est utilisée pour cela : la distance entre deux classes est celle de leurs barycentres au carré, pondérée par les effectifs des deux clusters. On suppose tout de même l’existence de distances euclidiennes entre observations. Cette technique tend à regrouper ensemble les petites classes. Sur SAS, METHOD=WARD. La distance minimale (single linkage) : la plus simple à comprendre. C’est la plus petite distance entre deux observations de clusters différents. Elle produit souvent des nuages allongés. Sur SAS, METHOD=SINGLE. La distance maximale (complete linkage) : s’il n’y a pas d’outlier. Produit au contraire des nuages compacts (c’est-à-dire des cumulus alors que la distance minimale produit des cirrus ! Bon, je plaisante). Sur SAS, METHOD=COMPLETE. La distance moyenne non pondérée (unweighted pair-group average linkage) : le logiciel mesure tous les liens entre chaque observation du cluster A et chaque observation du cluster B (dessin ci-dessous) et en fait une moyenne. C’est une des méthodes les plus efficaces. Elle tend à réunir des clusters aux inerties faibles : on voit bien que si les points bleus étaient davantage éloignés entre eux, la distance globale serait allongée… Sur SAS, METHOD=AVERAGE.
La distance moyenne pondérée (Weighted pair-group average linkage) : même méthode mais en pondérant chaque lien point à point en fonction du poids des clusters d’appartenance. Sur SAS, METHOD=FLEXIBLE avec BETA=0. La distance des barycentres non pondérée : assez simple, elle consiste à mesurer les distances entre barycentres de clusters. Sur SAS, METHOD=CENTROID. La distance des barycentres pondérée : idem, mais en pondérant par les poids des clusters, on évite des déséquilibres. La distance moyenne après fusion : moyenne de tous les liens, qu’ils soient entre observations de deux clusters différents ou intraclasses. Cette méthode est la seule qui s’attache directement au cluster obtenu et non aux caractéristiques des clusters candidats. Le bêta flexible : faites du tuning sur votre métrique ! Bêta est un coefficient paramétrable entre -1 et 1. β = 0 équivaut à la méthode de la distance moyenne pondérée. Proche de 1 et les nuages s’allongent. Négatif et c’est l’inverse. Sur SAS, METHOD=FLEXIBLE avec par défaut β = -0,25. Ces différents systèmes de mesure sont accessibles avec Statistica, sauf les deux derniers. SAS propose quelques raretés supplémentaires. Les distances programmées sur XLSTAT font l’objet d’une comparaison sur ce site.
|




