Statistiques d'échantillon et distributions d'échantillonnage

Statistiques et distributions d'échantillonnage

Il n’est pas toujours possible d’établir des statistiques descriptives sur l’ensemble d’une population. Par exemple, si un exploitant expédie un million de paquets de café de 500 g dans l’année, il ne vérifie pas si toute sa « population » de paquets pèse bien 500 g au dixième de gramme près !

En revanche, il peut en choisir un certain nombre au hasard (échantillon aléatoire) et les peser très précisément pour vérifier la qualité de ses machines. L’intérêt de l’opération, c’est d’estimer des paramètres sur la population-mère à partir de l’échantillon. Ceux-ci sont par exemple le poids moyen mais aussi l’écart-type si l’on considère qu’il est impossible d’obtenir \(100\%\) de paquets pesant exactement 500 g. Un autre paramètre peut être une proportion, par exemple si un distributeur exige que les paquets pèsent AU MOINS 500 g (il y aura donc une proportion de paquets acceptables et une part de paquets refusés).

Fluctuations d'échantillonnage

Supposons que l’échantillon aléatoire soit constitué de vingt paquets et que la moyenne observée s’établisse à 499 g. Notre fabricant en tirera les conséquences (qui ne nous regardent pas). Mais avec un échantillon de vingt autres paquets, la moyenne aurait peut-être été de 501 g. C'est la problématique de l’échantillonnage : les statistiques déterminées sur un échantillon sont des variables aléatoires !

café

C’est là que les choses se compliquent. Il faut estimer un paramètre sur le caractère d'une population (moyenne, écart-type, proportion) à partir d’un tirage au hasard. Rude challenge.

Statistique d'échantillon

Pour bien distinguer ce qui relève de l’échantillon et ce qui caractérise la population-mère, il faut d’abord soigner… son vocabulaire. Ainsi, les statistiques observées sur l’échantillon sont qualifiées d’empiriques (moyenne empirique, variance empirique ou standard, médiane, mode, fréquence… empiriques).

Comme toute variable aléatoire (v.a) qui se respecte, une statistique d’échantillon suit elle aussi une loi de probabilité, dite distribution d’échantillonnage. Elle a une espérance et un écart-type.

Ainsi, la moyenne empirique considérée comme v.a a une espérance et une variance (donc un écart-type) et idem pour l’écart-type empirique.

Nous ne verrons pas ici comment passer de statistiques d'échantillon aux paramètres estimés de la population. Nous nous contenterons d'un survol de ces notions.

Moyenne empirique

L’espérance de la moyenne empirique est l’espérance de la moyenne de la population-mère \(N.\) Là, c’est facile.

La variance de la moyenne empirique est la variance divisée par l’effectif de l’échantillon \(n\) (et donc l’écart-type de la moyenne empirique n’est autre que l’écart-type divisé par la racine carrée de \(n\)).

Écrivons cette variance ainsi : \(\rm{V}(\overline{X}_n) = \frac{\sigma ^2}{n}\)

Si l’échantillon est relativement élevé (plus de \(5\%\) de la population), il convient d’utiliser un facteur de correction :

\(\rm{V}(\overline{X}_n) = \left(\frac{N - n}{N - 1}\right) \frac{\sigma ^2}{n}\)

Nous l’avons vu, la moyenne empirique suit une loi de probabilité. Si l’échantillon est gaussien (c’est-à-dire que le caractère observé suit une loi normale) et que les tirages sont indépendants, alors la moyenne empirique suit elle aussi une loi normale. Si l’échantillon suit une autre loi mais qu’il est suffisamment grand (\(n > 30\)), la moyenne empirique suit malgré tout une loi normale (voir le théorème central-limite). Dans les autres situations, la moyenne empirique suit d’autres lois.

La médiane empirique a elle aussi pour espérance la moyenne de la population-mère, du moins si l’échantillon est gaussien.

Variance empirique

L’espérance de la variance standard \(S^2\) n’est pas tout à fait égale à la variance \(σ^2\) de la population-mère (note : il s’agit bien de l’ESPÉRANCE de la variance de la population-mère et non du paramètre exact qui reste inconnu). Elle est sous-estimée. Il est d'ailleurs assez intuitif que dans une population donnée, plus on retient un échantillon important, plus on a de chances d'avoir une forte dispersion du caractère étudié.

\(E(S_n^2) = \frac{n - 1}{n} \sigma ^2\)

Enfin, la variance de \(S^2\) fait intervenir le moment centré d’ordre 4 (\(μ_4\)).

\[V(S_n^2) = \frac{(n - 1)\left[(n - 1)\mu _4 - (n - 3) \sigma ^4\right]}{n^3}\]

Vous trouverez peut-être dans les ouvrages spécialisés des formules différentes (plus approximatives mais aussi plus simples !).

Lorsque l’échantillon est grand, la distribution de \(S^2\) suit une loi normale.

Lorsque l’échantillon est gaussien, la statistique suivante suit une loi du khi² à \(n-1\) degrés de liberté :

\[\frac{n S_n^2}{\sigma ^2} \leadsto \chi_{n-1} ^2\]

Sinon, il faut déterminer la loi au cas par cas.

Fréquence empirique

Soit un échantillon de taille \(n\) qui suit une loi de Bernoulli. La fréquence observée est notée \(f.\)

L’espérance de la fréquence empirique \(f\) est aussi l’espérance de la proportion p de la population-mère. C’est le même principe que pour la moyenne (une proportion n’étant rien d’autre qu’une moyenne entre des 0 et des 1).

Quant à la variance de la fréquence : \(V(f) = \frac{p(1 - p)}{n}\)

Là encore, si la taille de l’échantillon est importante par rapport à celle de la population-mère, on intègre un facteur de correction (le même que pour la moyenne).

Si \(np\) et \(n(1 - p)\) sont supérieurs à 5, on considère que la distribution de \(f\) est gaussienne.

Intervalles

Les statistiques d’échantillonnage permettent d’établir des estimateurs, c’est-à-dire les estimations des vrais paramètres de la population-mère (moyenne, écart-type…). Ceux-ci se situent dans des intervalles de confiance, c’est-à-dire des fourchettes aléatoires de valeurs qui ont une probabilité donnée de contenir le vrai paramètre de la population-mère.

En revanche, lorsqu’on prend le problème à l’envers et qu’il s’agit d’estimer, pour une probabilité donnée, que notre statistique d’échantillon se situe dans un intervalle fixé autour d’un paramètre établi de façon théorique, on parle d’intervalle de fluctuation (ou de pari).

échantillon de vin