Comparaison de proportions (échantillons indépendants)
Voici un test paramétrique courant qui permet de comparer deux sous-populations, par exemple dans le cadre d'une étude de marché ou d'un audit social. Les contrôles de qualité, grands consommateurs de tests, l'utilisent également. Qu'est-ce qu'une proportion ? C'est la part de la population qui possède telle modalité d'une variable qualitative. On raisonne en binaire. Le partage est parfois simple (homme ou femme, par exemple). Mais si l'on teste un produit pour faire pousser les cheveux, on doit classer les résultats en deux catégories, succès et échec. Peu importe que l'échec se traduise par une absence de résultat, un résultat insuffisant ou une calvitie totale... Ni nuance, ni modalités multiples ! Il nous faut des données de deux échantillons d’effectifs n1 et n2 supérieurs à 30 et obtenus par sondage aléatoire. On trouve parfois d’autres conditions plus restrictives (voir test de conformité d’une proportion). Une comparaison de deux échantillons très petits s'effectue quant à elle avec le test exact de Fisher. En revanche, le test de proportions est en concurrence avec le test d’indépendance du khi² sur un tableau de contingence 2 × 2. Bien que la loi hypergéométrique devrait théoriquement être utilisée, la taille des échantillons nous permet de supposer que la fréquence de la variable de Bernoulli observée s’apparente à une loi normale dont l'espérance serait la proportion p et l'écart-type serait :
Tester une différence de proportions entre deux populations revient à vérifier si cette différence suit une loi normale de moyenne nulle (donc centrée). C’est l’hypothèse H0. Si l'on réduit cette différence en la divisant par son écart-type, la variable aléatoire obtenue suit une loi normale non seulement centrée mais réduite.
L'estimateur d'une proportion étant la fréquence observée sur un échantillon, l'espérance de l'écart entre ces fréquences (qu'on suppose nulle) est donc égale à l'écart p1 – p2. Ainsi on compare la valeur t de la loi normale centrée réduite (c'est-à-dire 1,96 si l’on utilise le classique intervalle de confiance bilatéral de 95 %) à cette statistique. Notez qu'on peut aussi formaliser cette dernière ainsi :
Dans cette formule, p est la moyenne pondérée des deux fréquences observées. Rappelons que sous H0, p1 = p2 = p. J'ai ajouté la valeur absolue car, si le test est unilatéral, on compare bien une valeur positive à la valeur indiquée dans une table de la loi normale. Exemple : le statisticien RH s'intéresse à l’indicateur jours de maladies + accidents du travail du bilan social de deux filiales de sa société. Ce dernier s'analyse au regard d'un nombre de jours théoriquement travaillés :
La différence semble réelle (5,7 % contre 6,1 %). Peut-on considérer qu’il s’agit d’une simple fluctuation statistique avec un niveau de confiance de 0,95 ? L’hypothèse H0 à tester est que les deux proportions observées sont identiques au seuil de 5 % (test bilatéral). Illustration didactique d’un traitement sur Excel (les logiciels de statistiques permettant rarement un traitement rapide à partir d'un tableau déjà construit) :
On voit qu'il est inutile de recourir à un logiciel spécialisé, pour peu qu’on s’en tienne aux niveaux de confiance habituels. Vous pouvez sauvegarder une page de tableur avec toutes les formules qui permettent de comparer les hypothèses et vous en servir chaque fois qu’un test de fréquence doit être réalisé. Ouvrir le fichier, modifier quatre cellules et admirer le résultat doit prendre moins de dix secondes… Les étapes de calcul sont particulièrement détaillées dans ce tableau. La conclusion apparaît sous deux formes. Première forme, la ligne « Écart centré réduit » correspond au rapport indiqué plus haut. La valeur 5,8987 est supérieure à 1,96 et on rejette H0, considérant que l’écart des journées de maladies et d’accidents du travail n'est pas dû à une simple fluctuation d'échantillonnage. La seconde façon de lire le résutat consiste à utiliser l’intervalle de confiance (deux dernières lignes du tableau). On vérifie alors si la différence observée de 0,0038 se trouve dans cet intervalle, ce qui n'est pas le cas ici. Pour terminer, précisons que ce test ne s'applique pas aux échantillons appariés. Pour estimer si un même échantillon montre une évolution significative de proportions lorsqu'on l'étudie à deux instants différents, on se précipite sur la page test de Mc Nemar.
|








