Les mesures d'associations

V de Cramer et autres mesures d'association

Éternel problème du data analyst. Il observe une distribution à deux variables. Existe-t-il un lien entre elles ? Cette page vous présente des outils épatants pour mesurer certains liens qualitatifs qui peuvent être présents dans une population : couleur des yeux et des cheveux, PCS et opinion politique, effets d’une vie sans tabac sur la santé…

 

Problématique

Soit un tableau de contingence, c'est-à-dire un tableau à double entrée dont les cases indiquent  un décompte d'unités statistiques. Pour estimer si les modalités représentées en lignes et en colonnes sont probablement indépendantes ou au contraire liées, on a coutume de procéder à un test de khi² d’indépendance.

Supposons que la population d'individus soit répartie par PCS et par tranche de revenu ; ce test nous indiquera qu’il existe une liaison. Mais comment mesurer si ce lien est fort ? Existe-t-il une unité de mesure qui permet de comparer l’intensité de cette association ? La bonne nouvelle, c’est que la réponse est oui. La mauvaise nouvelle, c’est qu’il y en a plusieurs.

 

Le \(V\) de Cramer

Sans doute le plus connu…

Contrairement au \(\chi ^2,\) il reste stable si l’on augmente la taille de l’échantillon dans les mêmes proportions inter-modalités. Il est basé sur le \(\chi ^2\) maximal que le tableau de contingence pourrait théoriquement produire : ce dernier aurait alors une seule case non nulle par ligne ou par colonne (selon que le tableau a plus de lignes ou plus de colonnes). Ce \(\chi ^2\) max théorique est égal à l’effectif multiplié par le plus petit côté du tableau (nombre de lignes ou de colonnes)  moins 1. Par exemple un tableau de \(2 × 3\) avec un effectif de 100 a pour \(\chi ^2\) \(\max 100 × (2 - 1) = 100.\)

Le \(V\) de Cramer est la racine carrée du \(\chi ^2\) divisé par le \(\chi ^2 \max.\)

\[V = \sqrt{\frac{\chi ^2}{\chi ^2 \max}}\]

\[\Leftrightarrow V = \sqrt{\frac{\chi ^2}{n \times [\min (l,c) - 1]}}\]

Plus \(V\) est proche de zéro, plus il y a indépendance entre les deux variables étudiées. Il vaut 1 en cas de complète dépendance puisque le \(\chi ^2\) est alors égal au \(\chi ^2 \max\) (dans un tableau 2 × 2, il prend une valeur comprise entre -1 et 1).

V

 

Le coefficient de contingence (CC)

Même rôle et même interprétation que le \(V\) de Cramer (sauf dans un tableau \(2 × 2)\) ; il est compris entre 0 et « presque 1 » (par sa formule, il est logiquement plus petit que \(V\). Moins connu, il est toutefois donné par XLSTAT ou par l’option chisq de la proc FREQ de SAS.  Dans la mesure où le montant maximal du CC dépend de la taille de l’effectif, il ne sert qu’à comparer des tableaux de même taille.

\[\rm{CC} = \sqrt{\frac{\chi ^2}{\chi ^2 + n}}\]

 

Le coefficient phi (de Pearson)

Encore une mesure de la force de l’association entre les deux variables, du moins avec les modalités retenues. C’est la racine du \(\chi ^2\) divisé par l’effectif. Lorsque le tableau n’a que deux lignes ou deux colonnes, il est donc égal au \(V\) (mais dans ce cas, on teste plutôt une comparaison entre deux proportions). Donné par tous les logiciels, le \(\varphi ^2\) est aussi la métrique de l’AFC.

 

Le PEM (Pourcentage de l’Écart Maximum)

C’est un indicateur d’écart à l’indépendance utilisé par le sociologue Philippe Cibois mais, à notre connaissance, seuls les logiciels Trideux et Modalisa le calculent sans programmation particulière. Ce qui est d’ailleurs fort dommage : cet indicateur ne se présente pas sous la forme d’une racine carrée mais d’un pourcentage. Il est ainsi compréhensible de façon assez intuitive.

Autre avantage incomparable, le PEM est calculé à deux niveaux : local (chaque case du tableau) et global. Relevons d’abord l’écart entre l’effectif maximum qu’on pourrait trouver dans une case (voir ci-dessus la case non nulle du \(\chi ^2\max\)) et l’effectif théorique de complète indépendance. C’est à ce nombre-ci que se rapporte l’écart entre observé et théorique. Le PEM global est quant à lui le quotient de la somme des écarts positifs observés – théoriques sur la somme des écarts positifs maxis – théoriques. P. Cibois précise qu’un PEM \(> 50\%\) manifeste « une liaison tellement forte qu’ils sont l’indice d’une redondance des indicateurs (…). Inversement, quand la liaison est inférieure à \(10\%,\) elle peut être l’effet du hasard et c’est pour cette raison qu’on associe toujours au PEM le test du khi-deux » (P. Cibois, Les Méthodes d’analyse d’enquête, PUF Que sais-je ? 2007, p. 16).

A l’exception de ce dernier indicateur, la plupart apparaissent dans les analyses de tableaux de contingence des différents logiciels (voir les exemples).

 

pirate voleur