Les utilisations du t de Student

t et loi de Student

La variable aléatoire (v.a) de Student n'est pas signifiante pour tous ses utilisateurs. On se sert d'elle sans vraiment savoir d'où elle vient ni pourquoi. Essayons d'éclaircir ce mystère.

 

La statistique de Student

William Sealy Gosset, alias Student, a conçu une combinaison de deux v.a pour en obtenir une troisième.

Au numérateur se trouve une v.a qui suit la loi normale centrée réduite. Au dénominateur figure la racine carrée d’une autre v.a, indépendante de la première, qui suit quant à elle une loi du khi² à \(n\) degrés de liberté (ddl) divisée par la racine carrée de l’effectif de l'échantillon \(n.\) Notons \(Z\) notre première v.a et \(X_n\) notre deuxième. \(T_n\) est la v.a de Student.

\[T_n = \frac{Z}{\sqrt{\frac{X_n}{n}}}\]

Eh bien cette statistique suit une loi de Student à \(n\) ddl.

 

La loi de Student

C’est une loi de probabilité continue dont la fonction de densité a une expression algébrique un peu compliquée. Mais sa courbe représentative est simple à visualiser. Plus étirée que la fonction de densité de la loi normale, elle ressemble davantage au couvre-chef de Napoléon qu’à une cloche.

La loi est symétrique, son espérance est égale à 0 et sa variance est égale à \(\frac{n}{n - 2}.\) Cette dernière est donc infinie si \(n = 2\) et n’existe pas si \(n = 1\) (c’est la loi de Cauchy). En revanche, plus \(n\) est grand et plus sa distribution se confond avec celle de la loi normale centrée réduite. À échelle équivalente, c'est comme si l'on serrait un corset à sa courbe de densité au fur-et-à-mesure que l'effectif augmente. On devine dès lors que cette loi sera particulièrement utile pour l’étude de petits échantillons pour lesquels la loi normale ne s'applique pas.

Tout ceci est bien abstrait, remarquerez-vous à juste titre.

L’intérêt, c’est que si l’on reliait certaines techniques statistiques au \(t\) ci-dessus, il serait alors possible d'utiliser cette distribution qui est tabulée. Et justement, on peut.

 

L’estimation d’une moyenne

On souhaite savoir si la moyenne \(m\) observée sur un échantillon est représentative d’une espérance mathématique ou de tout autre montant (moyenne sur un autre échantillon, norme, âge du capitaine…). Intéressons-nous à l’écart qui existe entre ces deux valeurs.

Par exemple, si l'on souhaite savoir si les moyennes de deux échantillons sont statistiquement proches, on étudie leur différence \(m_1 - m_2.\)

différence mesurée

En raison des fluctuations d'échantillonnage, la valeur de \(m\) est une v.a et \(m\) a donc un écart-type probablement non nul.

Pour ne pas être lié à une unité de mesure qui rendrait la tâche impossible, on rapporte cette différence à l’écart-type de cette moyenne \(m\) (c’est-à-dire l’écart-type observé sur l'échantillon divisé par la racine carrée de l’effectif). On obtient une statistique parfois appelée \(z\), nombre sans dimension qui suit une loi normale centrée réduite. Dès lors, on peut estimer si la moyenne observée diffère ou non de la valeur à laquelle elle est comparée, pour un risque d'erreur donné.

Tout ceci marche merveilleusement bien lorsque le nombre d’observations est très élevé. Mais moins il l'est, moins le théorème central-limite peut s’appliquer. En clair, la statistique \(z\) que l’on s’est construite ne fonctionne plus. Rappelons en outre que l'écart-type d’un échantillon n’est pas tout à fait le même que celui de la population tout entière ; si la différence est insignifiante sur un millier d’observations, elle ne l’est plus du tout sur une douzaine.

On construit alors une statistique très proche de \(z,\) dont la formule peut se deviner à la lecture de ce qui est écrit ci-dessus, à savoir :

\[t = \frac{\overline{x} - m}{\frac{s'}{\sqrt{n}}}\]

Le \(s’\) qui remplace ici l’habituel \(\sigma\) indique qu’il s’agit de l’écart-type sans biais de l’échantillon.

La valeur de cette statistique dépend du nombre d’observations et plus précisément d’un nombre de ddl (effectif \(- 1\)). On démontre sans trop de difficulté que ce \(t\) n’est autre que le t de Student à \(n - 1\) ddl. C’est pourquoi on emploie \(t\) dans les tests de conformité d’une moyenne à un standard ou les tests de comparaisons de moyennes.

 

Les régressions

Cette statistique est particulièrement employée pour évaluer individuellement la qualité des coefficients de régression linéaire simple ou multiple (pour cette dernière, voir page tests sur paramètres de régression).  Le nombre de degrés de liberté est alors \(n - k - 1\) (\(k\) étant le nombre de variables explicatives).

Le t est aussi utilisé pour estimer si le coefficient de corrélation est significativement différent de zéro.

 

Table

Les valeurs prises par la loi de Student sont tabulées. Bien que les logiciels fournissent des informations qui dispensent d'utiliser la table, vous pouvez éventuellement en avoir besoin. Peut-être même souhaitez-vous la construire vous-même en moins d'une minute ? Apprenez comment en page table du t de Student.

 

t de Student