mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 Le t et la loi de Student

Petit rappel sur les conditions d’utilisation de l’incontournable t de Student, qui est un rapport entre deux variables aléatoires indépendantes (la technique miraculeuse vérifiant cette indépendance étant le test de Fisher-Snedecor)...

Au numérateur se trouve une variable aléatoire qui suit une loi normale centrée réduite. Au dénominateur figure la racine carrée d’une autre variable aléatoire qui suit quant à elle une loi du khi² à n degrés de liberté (ddl) divisée par la racine carrée de l’effectif n. La formulation qui suit n’est pas hyper rigoureuse, il s’agit d’une simplification :

t

Eh bien cette statistique suit une loi de Student à n ddl.

La loi de Student

C’est une loi de probabilité dont la fonction de densité a une forme algébrique un peu compliquée à écrire. Mais sa courbe représentative est simple à visualiser. Plus étirée que la fonction de densité de la loi normale, elle ressemble davantage au couvre-chef de Napoléon qu’à une cloche (enfin, ça dépend de l’échelle… Cf. ci-dessous la courbe tracée par le logiciel Gretl).

Densité loi Student

La loi est symétrique, son espérance est égale à 0 et sa variance est égale à (n / n  2). Elle est donc infinie si n = 2 et elle n’existe pas si n = 1 (c’est la loi de Cauchy). En revanche, plus n est grand et plus sa distribution se confond avec celle de la loi normale centrée réduite. À échelle équivalente, c'est comme si l'on serrait un corset à sa courbe de densité au fur-et-à-mesure que l'effectif augmente. On devine dès lors que cette loi sera particulièrement utile pour l’étude de petits échantillons.

Tout ceci est bien abstrait, remarquerez-vous à juste titre.

L’intérêt, c’est que si l’on reliait certaines techniques statistiques au t ci-dessus, il serait alors possible d'utiliser cette distribution qui est tabulée. Et justement, on peut.

Une utilisation : l’estimation d’une moyenne

On souhaite savoir si la moyenne m observée sur un échantillon est représentative d’une espérance mathématique ou de tout autre montant (moyenne d’un autre échantillon, norme, âge du capitaine…). Intéressons-nous à l’écart qui existe entre ces deux valeurs.

Pour ne pas être lié à une unité de mesure qui rendrait la tâche impossible, on rapporte cette différence à l’écart-type de cette moyenne m (c’est-à-dire l’écart-type observé divisé par la racine carrée de l’effectif). On obtient une statistique parfois appelée z, nombre sans dimension qui suit une loi normale centrée réduite. Dès lors, on peut estimer si la moyenne observée diffère ou non du montant de référence pour un niveau de risque donné.

Tout ceci marche merveilleusement bien lorsque le nombre d’observations est très élevé. Mais moins il l'est, moins le théorème central-limite peut s’appliquer. En clair : la statistique qu’on s’est construite ne fonctionne plus. Rappelons en outre que l'écart-type d’un échantillon n’est pas tout à fait le même que celui de la population toute entière et si la différence est insignifiante sur un millier d’observations, elle ne l’est plus du tout sur une douzaine.

On construit alors une statistique très proche de z, dont la formule peut se deviner à la lecture de ce qui est écrit ci-dessus, à savoir :

t

Le s’ qui remplace ici l’habituel sigma indique qu’il s’agit de l’écart-type sans biais de l’échantillon.

La valeur de cette statistique dépend du nombre d’observations et plus précisément d’un nombre de ddl (effectif – 1). On démontre sans trop de difficulté que ce t n’est autre que le t de Student à (n – 1) ddl. C’est pourquoi on emploie le t dans les tests de conformité d’une moyenne à un standard ou les tests de comparaisons de moyennes.

Autres utilisations

Cette statistique est particulièrement employée pour évaluer la qualité de coefficients de régression linéaire, simple ou multiple (voir page tests sur paramètres de régression).  Le nombre de degrés de liberté est alors n – k – 1 (k étant le nombre de variables explicatives). Le t est aussi utilisé pour estimer si le coefficient de corrélation est significativement différent de zéro.

Table

Ci-dessous figure un extrait de la table de Student. Ce sont les valeurs de t qui ont la probabilité d’être dépassées de part et d’autre, en fonction du nombre de ddl. Pour un seuil de 0,05, on retrouve, à l’infini, la valeur bien connue de 1,96 puisque la loi de Student tend alors vers la loi normale centrée réduite. Les valeurs utilisées pour un niveau de confiance de 0,95 sont celles de la colonne 0,05 pour un test bilatéral et de la colonne 0,1 pour un test unilatéral. Vous trouverez peut-être une table différente, avec la colonne 0,05 qui est intitulée 0,025. Ce n'est pas une erreur, c'est juste qu'il s'agit d'une probabilité que la valeur de t soit dépassée d'un seul côté (lecture directe pour les tests unilatéraux).

On constate sur cette table que la dispersion est plus élevée que pour une loi normale et qu’un intervalle de confiance établi avec cette loi est donc plus large. Plus l’effectif (ou le nombre de ddl) est petit et plus la variance sans biais est incertaine, plus les valeurs sont dispersées. Ce qui indique que la courbe de densité de probabilité est davantage écrasée. En revanche, plus le nombre de ddl augmente, plus la loi de Student converge vers la loi normale.

Table de Student

 

t de Student

plus de livres (France)    plus de livres (Canada)