L'ANOVA à un facteur

Test d'analyse de la variance à un facteur contrôlé

L’analyse de la variance est une technique statistique fondamentale. Comme son nom ne l’indique pas, elle vise à comparer des moyennes sur plusieurs échantillons.

 

Conditions d’utilisation et contre-indications

Une comparaison de moyennes sur deux échantillons est possible grâce au test de Student ou d’un test \(z\) utilisant la loi normale. En revanche, une analyse sur trois échantillons indépendants ou plus nécessite une ANOVA (ANalysis Of VAriance).

La variable qualitative sur laquelle on teste une éventuelle différence entre échantillons est nommée « facteur ». Ses modalités sont des « niveaux ».

Deux vérifications préalables : première condition, les échantillons suivent une loi normale et deuxième condition (plus importante), ils présentent des variances identiques. En revanche, les effectifs de chaque échantillon ne sont pas obligatoirement égaux.

L’hypothèse à vérifier (H0) est que tous les échantillons ont la même moyenne. L’hypothèse alternative est qu’au moins l'un d'eux joue les trouble-fête avec une moyenne sensiblement différente des autres.

Tout ceci est bien joli mais dans quelles circonstances utilise-t-on ce bel outil ? À l’instar de la plupart des tests, ce peut être une étape dans un processus d’analyse ou une étude à part entière.

Si ce n’est qu’une étape, on espère soit ne pas rejeter l’hypothèse nulle (pour retenir une saisonnalité additive, par exemple) soit  la rejeter (s’assurer des différences préalablement à une analyse factorielle discriminante). Voir une illustration en page tests de saisonnalité et de tendance.

S’il s’agit d’une étude à part entière, on espère généralement rejeter l’hypothèse nulle sauf cas particuliers (contrôles de qualité…). Le but est en principe d’identifier un facteur de variabilité, notamment dans le cadre de plans d’expériences.

 

Principe

Le principe est celui de la décomposition de la variance (intra-classe et interclasse). L’ANOVA utilise le mécanisme du \(F\) de Fisher non pas pour comparer deux variances d’échantillons mais bien les deux composantes d’une même variance. Le test ne « fonctionnera » que si les moyennes sont les mêmes dans tous les échantillons.

 

Procédure

D’abord, on identifie le facteur et on sélectionne les données.

Si l’on ne bâcle pas son analyse, deux étapes préalables : tests de normalité et surtout tests d’homogénéité des variances (homoscédasticité). S’ils se révèlent négatifs, on se dirige vers d’autres méthodes, non paramétriques (Kruskal Wallis).

On pose les hypothèses. H0 : les moyennes sont égales. H1 : au moins une moyenne est différente des autres.

On utilise la procédure de son logiciel favori (« ANOVA à 1 facteur » ou « One-way ANOVA » selon sa langue de prédilection).

Puis on examine ce que restitue le logiciel, c'est-à-dire le tableau de l’analyse de la variance (sur ce lien, exemple du tableau SPSS) puis on interprète. H0 est rejetée si F est supérieur à sa valeur critique.

 

Exemple

Trois unités de production indiennes montrent des différences sur les quatre trimestres d’une année. Notons au passage que si la production diminue à Bombay et augmente à Calcutta, l’ANOVA ne s’en préoccupe pas du tout. Elle permet de comparer des moyennes, pas des tendances (du moins sur cet exemple)…

Exemple

Ne cherchant pas l’originalité, optons pour un seuil de risque de \(5\%.\)

usine

L’utilitaire d’analyse d’Excel fournit des statistiques descriptives sommaires puis un tableau d’ANOVA relativement bien « soigné » (à comparer aux autres logiciels. On regrette juste le terme « nombre d’échantillons » au lieu de « taille des échantillons ») :

Anova avec Excel

Deux informations valant mieux qu’une, Excel nous fournit la p-value (un peu supérieure à 0,05 : on ne rejette pas H0) mais aussi la valeur constatée et la valeur critique du \(F.\)

Quelques logiciels exigent une entrée en liste. Minitab permet également une entrée des données en tableau (choisir alors ANOVA à 1 facteur désempilé).

Les résultats présentés par ce logiciel ont un petit air « brut de fonderie » mais les limites de confiance ne sont pas dénuées d’intérêt…

Exemple sur Minitab

Cet exemple est celui d’une ANOVA à un facteur, en l’occurrence une ville dans laquelle se trouve une unité de production. Il est tout à fait possible, même avec Excel, de procéder à une ANOVA à deux facteurs.

 

ANOVA