Tests de normalité (Shapiro-Wilk et autres)

Shapiro-Wilk et autres tests de normalité

Il ne s’agit pas de savoir si vous êtes normal(e), vous vous situez certainement dans un certain intervalle de confiance... Non, les tests de normalité servent à s’assurer qu’une condition est remplie pour procéder ensuite à une analyse, régression linéaire multiple (normalité des résidus), tests sur de petits échantillons ou analyse discriminante bayésienne, par exemple.

Travail préparatoire

Un examen préalable des données consiste tout simplement à construire un graphique. Un diagramme en barres permet de visualiser si la distribution d'une population suit une loi normale (gaussienne). Il vaut mieux avoir déjà éliminé les éventuels outliers, surtout si la population n’est pas d’une taille gigantesque. La droite de Henry permet aussi une bonne visualisation des écarts par rapport à la gaussienne. Des statistiques simples permettent éventuellement vérifier notre première impression : coefficients d’aplatissement et d’asymétrie, qui doivent être proches de zéro.

Un choix de tests

Les plus connus sont celui du khi² et celui de Kolmogorov-Smirnov. Mais ils ne s’appliquent pas seulement à la vérification de l’adéquation à une loi normale, c’est pourquoi ils ne sont pas développés ici. Les tests de Lilliefors, d’Anderson-Darling et de Cramer-von Mises sont des variantes du test de Kolmogorov.

Le test de Shapiro-Wilk

Tant mieux si votre logiciel vous le fournit car c’est le test le plus fiable. Dans le cas contraire, il n’est pas difficile de calculer avec un tableur la statistique W qui permet de procéder au test. Mais vous avez besoin de deux tables.

Avec un tableur, la procédure commence par le tri des valeurs observées par ordre croissant.

tableur

Au dénominateur : calcul de la somme des carrés des écarts à la moyenne.

Au numérateur : calcul des différences (entre le premier et le dernier, le deuxième et l’avant-dernier et ainsi de suite, l’observation médiane est ignorée si \(n\) est impair). On applique à chaque différence un coefficient ai lu dans une table. On additionne et on élève au carré.

Le W est prêt à servir, ou plutôt à être lu dans une autre table. Il est compris entre 0 et 1.

L’hypothèse H0 de normalité est vérifiée quand la valeur est élevée (au contraire du test de Kolmogorov-Smirnov).

La table de Shapiro-Wilk ne figure pas souvent dans les ouvrages de statistiques mais vous pouvez la télécharger pour un effectif qui ne dépasse pas 50 :

http://www.viesanimales.org/stats/Documents/Telechargements.htm

Vous y trouverez également des feuilles de calcul pour tester la normalité.

Exemple

Soient les résidus d’une régression multiple (ça peut paraître abstrait comme ça, mais c’est un cas courant d’utilisation).

Sur SPSS, cliquer sur Descriptive statistics, Explore, Plots, Normality plots with tests. On obtient les résultats des tests de Lilliefors et de Shapiro-Wilk.

Sortie SPSS

Les résultats des deux tests sont particulièrement intéressants : si l’on se situe à l’habituel niveau de confiance de \(95\%,\) le test de Lilliefors conduit à accepter l’hypothèse de normalité alors que le test de Shapiro-Wilk la refuse. Devant la perplexité qui nous assaille, on fera plutôt confiance à ce dernier. Toutefois, le tests sont si proches du niveau de risque acceptés qu'un réexamen des données s'impose (peut-on en ajouter, les valeurs extrêmes sont-elles explicables, les observations sont-elles toutes fiables…).

Graphe SPSS

Le Q-Q plot restitué par SPSS nous montre l’influence des résidus situés dans les queues de distribution. Une distribution en S indique en effet une distribution plus étirée verticalement qu’une gaussienne.

Minitab 15 ne fournit pas le test de Shapiro-Wilk mais celui de Ryan-Joiner (ainsi que K-S et Anderson-Darling).

Extrait d'un état de Statgraphics Centurion, qui montre des résultats très légèrement différents...

Statgraphics

Présentons les résultats du logiciel libre Tanagra :

Tableau Tanagra

À partir d'autres exemples, voir les états de sortie de XLSTAT en page tests préalables à une analyse discriminante et du logiciel gratuit Assistat en page détection d'outliers par intervalle de confiance.

tests de normalité