Le test exact de Fisher

Test de Fisher-Irwin-Yates

Voici l’un des rares projets de statistiquessmall is beautiful. En effet, ce test est spécialement réservé aux petits échantillons (moins de 2 × 15 valeurs).

 

Procédure

Il s’agit d’un test de proportion sur deux échantillons indépendants.

On l’effectue à partir d’un tableau de contingence à quatre cases, soit n° échantillon × (succès vs échec). Mais ce n’est pourtant pas un mini test du khi² !

La probabilité d’observer telle configuration de tableau plutôt que telle autre est donnée par la loi hypergéométrique. Pour mémoire, la formule est :

\[P(X = k) = \frac{{\left( {\begin{array}{*{20}{c}}
Np\\
k
\end{array}} \right)}{\left( {\begin{array}{*{20}{c}}
N(1-p)\\
n-k
\end{array}} \right)}}{{\left( {\begin{array}{*{20}{c}}
N\\
n
\end{array}} \right)}}\]

En l’occurrence, \(n\) est l’effectif de l’un des deux échantillons, \(N\) est l’effectif global. Il n’est pas nécessaire de calculer les probabilités si l’on dispose du tableau de contingence : comme on le voit ci-dessus, il suffit de connaître les distributions marginales, \(Np\) et \(N(1 - p)\) représentant les effectifs globaux de succès et d’échecs.

On peut alors associer une probabilité cumulée au plus faible des quatre effectifs. Si par exemple ce plus petit effectif est 2, on calcule \(P(X \leqslant 2).\) Plus les deux échantillons sont homogènes, plus cette probabilité est élevée.

Cette probabilité permet d’estimer si les deux proportions sont à peu près égales (l’hypothèse H0 du test) ou au contraire différentes.

Il reste à interpréter cette probabilité en choisissant un seuil bilatéral ou unilatéral. Ce choix n’a rien d’évident. On a beau recourir à des calculs lourds (loi hypergéométrique oblige !), le fait de travailler sur de petits échantillons implique de grosses incertitudes, tant au niveau de l’échantillonnage qu’à celui de l’interprétation. Et cette interprétation dépend de choix. Nous pensons qu’il est fallacieux, pour ce test, d’utiliser un intervalle de confiance avec seuil alpha et que la conclusion doit être nuancée.

 

Exemple

À Gotham City, la police affronte les hommes de main du Joker. Batman, cloué devant ses écrans de contrôle en raison de graves coliques néphrétiques, compte les blessés et établit un test exact de Fisher afin d’estimer s’il y a ou non un vainqueur.

Gotham City

Les données sont les suivantes :

résultats

Batman utilise le logiciel StatEL :

résultat du test de Fisher

Le degré de signification est de \(30\%\) (unilatéral) : on ne peut pas rejeter H0 et déclarer la police vainqueur… Pour conclure avec toutes les nuances que ce test implique, on dira que, en fondant son jugement sur une bataille où les forces en présence sont numériquement proches, il n’est pas certain que les uns sont plus forts que les autres : soit on part du principe que les policiers sont meilleurs ou équivalents mais on n’a que sept chances sur dix d’avoir raison, soit il est tout à fait envisageable que les hommes du Joker sont en fait supérieurs, auquel cas on a près d’une « chance » sur deux de se tromper en comptant sur la supériorité de la police.

Comme vous le constatez, la partie la plus difficile d’un test est de rédiger une conclusion en termes compréhensibles par un non-initié tout en restant aussi rigoureux que possible. Le test en lui-même ne présente pas la moindre difficulté puisqu’il suffit de connaître les conditions d’application et se laisser guider par un logiciel.

Bref.

Une deuxième bataille montre les résultats suivants :

résutat du 2ème test

On le voit, si l’on utilise un test bilatéral avec un risque de se tromper de \(5\%,\) il en faut beaucoup pour rejeter H0 ! (ici, la police a manifestement gagné la partie). C’est pourquoi d’autres logiciels ne fournissent que la p-value unilatérale, à l’instar d’OpenStat :

Fisher avec OpenStat

 

Batman