Le test Z

Test de moyenne \(Z\) sur petit ou grand échantillon

Posons le décor : soit un échantillon aléatoire de taille \(n\) supérieure ou égale à trente. On souhaite savoir si la moyenne observée s’éloigne d’une moyenne standard \(m\) pour un risque d’erreur donné.

 

Normalité

On suppose que la distribution suit une loi normale, ce qui est vérifiable par un test de normalité. Mais plus l’échantillon est grand, plus on s’affranchit sans vergogne de cette condition car l’espérance des moyennes de nombreux échantillons suit de toute façon une loi normale, sauf cas particuliers. C'est le théorème central-limite.

 

Test

Vous l'avez deviné, il faut procéder à un test d’hypothèses et plus précisément à un test de conformité. Selon le cas à traiter, le test est unilatéral ou bilatéral.

Nous ferons le parallèle avec le test de Student, employé sur les petits échantillons. Pour le data scientist qui utilise un logiciel, la distinction ne présente pas un intérêt vital… Sur SPSS ou sur Tanagra, par exemple, on utilise le même test \(t.\)

La statistique \(z\) utilise la moyenne observée sur l'échantillon, estimateur de \(m.\) Elle suit la loi normale centrée réduite et s’établit ainsi :

\[z = \frac{|\overline{x} - m|}{\frac{\sigma}{\sqrt{n}}}\]

La différence avec la statistique \(t\) de Student, c’est que \(z\) utilise l’écart-type empirique \(σ.\)

Donc, on peut très bien appliquer ce test sur un petit échantillon du moment que la dispersion de la population de référence est connue et, par définition, non biaisée… De fait, des auteurs (et des logiciels) préfèrent appliquer le terme « test \(z\) » à ce cas plus général où l’on connaît la vraie variance de la population, quel que soit l’effectif. Notez au passage que de très nombreux ouvrages de statistiques expliquent ce test sans pour autant le nommer « \(z\) »...

Résumons : on utilise le test \(z\) soit lorsque l’échantillon est grand, soit lorsque la vraie variance de la population est connue. Les deux différences avec le test \(t\) sont la référence à la distribution normale et l'emploi de l'écart-type empirique.

Le fait d’utiliser la loi normale plutôt que la loi de Student implique un intervalle de confiance plus resserré (puisque la distribution gaussienne est moins étalée que celle de Student) mais s’il s’agit d’une approximation, elle peut se révéler fallacieuse… En revanche, lorsque la vraie variance de la population est connue, le gain de précision est réel.

 

Exemple d’un petit échantillon avec écart-type connu (test bilatéral)

Une machine remplit des pots de confiture d'oranges. Ceux-ci contiennent en principe 450 grammes de produit mais on remarque habituellement un écart-type de 1 g, conforme à la norme de qualité que s’impose l’entreprise exploitante.

oranges

Afin de savoir si la machine doit être réglée, un échantillon aléatoire de dix pots a été tiré pour être pesé. On relève les poids suivants : 450, 448, 451, 447, 449, 451, 450, 446, 448, 449. Sous l'hypothèse H0, la moyenne de cet échantillon peut être considérée comme égale à 450. L'hypothèse alternative H1 est que la moyenne est différente de 450.

On retient un risque de première espèce de \(1\%.\) Par rapport au risque plus habituel de \(5\%,\) on accepte donc une marge plus importante autour de la valeur 450 afin d’être quasi certain de ne pas se faire piéger par une fluctuation d’échantillonnage malvenue.

jus d'orange

Corrigé : la moyenne observée s’établit à 448,9. Donc…

\[z = \frac{|448,9 - 450|}{\frac{1}{\sqrt{10}}}\]

Donc \(z \approx \frac{1,1}{0,3162}\) soit environ 3,48.

Or, la table de la loi normale nous indique 2,576. Pour information, ce chiffre s’obtient facilement avec Excel. Il faut déterminer la valeur prise par 0,005 (soit la moitié du risque alpha de \(1\%\) puisque le test est bilatéral) à l’aide de la formule suivante :

=LOI.NORMALE.STANDARD.INVERSE(0,005)

On retient la valeur absolue du résultat, soit 2,5758.

Conclusion : on rejette H0 et il faut régler la machine ; \(z\) est beaucoup plus élevé que ce qui est toléré.

 

testz