mèche perceuse

 

 

 

 

 

 

 

 

 

 

 Estimateurs et estimations ponctuelles

Si les statistiques inférentielles utilisent un concept récurrent, c’est bien celui d’estimateur. Dans la mesure où cet outil est intégré aux algorithmes des logiciels et n’est pas « interprété », ses qualités rappellent plus les bancs de la fac que les conclusions de votre dernier contrôle de qualité ou de votre dernière étude de marché. Alors pourquoi évoquer sur ce site qui se veut opérationnel quelque chose qui semble aller de soi ? D’abord par commodité puisque de nombreuses pages font référence aux estimateurs (je présume d’ailleurs que c’est de cette façon que vous avez atterri ici). Mais surtout, un retour à la théorie permet de savoir de quoi l’on parle, ce qui, somme toute, n’est pas plus mal...

Supposons. Vous étudiez un échantillon tiré aléatoirement et vous observez une moyenne de 100, sachant que la distribution de la population s’écarte peu de la normalité. Personne ne vous interdit de penser que la moyenne sur la population totale s’établit à 101, qui est peut-être la médiane de l’échantillon. Sauf qu’il y a plus de chances qu’elle soit aussi égale à 100. La première étape de calcul des statistiques inférentielles consiste à utiliser l’estimateur ponctuel adéquat afin d’obtenir la meilleure estimation.

Puisque cette dernière est calculée à partir d’un échantillon tiré aléatoirement, notre estimateur est bien sûr une variable aléatoire, avec espérance et variance. La seconde étape de la démarche consiste alors à construire un intervalle de confiance autour de l'estimation (j’emploie « autour » dans un sens large, la marge pouvant se situer d’un seul côté).

Un estimateur peut être plus ou moins bon. Intuitivement, on se doute que l’estimateur d’espérance d’une population est probablement meilleur lorsqu’il s'agit de la moyenne de l’échantillon plutôt que si on l’estime par (mini + maxi) 2. On demande à un estimateur digne de ce nom de posséder les deux propriétés suivantes : être convergent et être sans biais.

Sans biais (unbiaised estimator)

Le biais est une erreur systématique. Un estimateur est estampillé « sans biais » si son espérance est égale au vrai paramètre de la population. Évidemment, ce dernier est inconnu et c’est par démonstration mathématique que l’on sait si tel estimateur est, par construction, biaisé ou non.

En pratique, cette erreur est parfois négligeable et il n’est alors pas fondamental de chercher à l’éliminer. Plus l’échantillon est grand, plus le biais est petit (attention, je ne parle pas d’un éventuel biais sur les DONNÉES). L’estimateur est alors asymptotiquement sans biais. Sur un échantillon de 1 000 individus, les estimateurs « variance » et « variance sans biais » ne montreront pas une différence sensible !

La convergence (consistent estimator)

La principale qualité souhaitée est la convergence : si l’échantillon augmente indéfiniment (du moins jusqu’à la taille de la population), l’estimation finit par être égale à la vraie valeur, avec un intervalle de confiance le plus petit possible.

Ce qu’il ne faut pas oublier, c’est qu’il peut exister plusieurs estimateurs et qu’ils ne convergent pas forcément à la même vitesse. L’estimateur le plus précis sur un échantillon de 10 individus n’est pas toujours le plus précis sur un échantillon de 1 000.

Qualité globale

Deux possibilités existent pour évaluer la qualité d’un estimateur. L’une est théorique, l’autre est l’efficacité.

Théoriquement, on apprécie la qualité de l’estimateur par l’erreur quadratique totale. L’espérance du carré de l’écart entre estimateur et vraie valeur est égale à la somme du biais au carré et de l’erreur aléatoire au carré. Une visualisation éclairant ce galimatias est donnée par B. Grais, qui utilise l’image du triangle rectangle (Méthodes statistiques, DUNOD, 3 éditions).

Si deux estimateurs sans biais sont en lice, le plus efficace (efficient) est celui dont la variance est la plus faible (intervalle de confiance plus resserré). Et en pratique, l’efficacité est le critère adopté. « La théorie de l’information ne permet pas de résoudre le problème de la recherche d’estimateurs d’erreur quadratique minimale » (G. Saporta, Probabilités, analyse des données et statistique, TECHNIP 2006).

En pratique, on préfère accepter un petit biais plutôt qu’une forte variance. Il vaut mieux tirer sur une cible avec un fusil long, même si le canon dévie très légèrement, plutôt qu’avec un tromblon bien réglé mais qui enverra des plombs un peu partout.

Estimateurs courants

Dans la plupart des cas (loi normale, de Poisson…), on estime l’espérance de la population par la moyenne de l’échantillon, la proportion par la fréquence observée et la variance par la variance sans biais.

La variance d'un estimateur de moyenne nécessite de connaître la variance de la population :

estimateur de moyenne

Construction

Il ne faut pas croire qu’un estimateur tombe du ciel ou qu’il « va de soi ». Si l’on utilise celui-ci plutôt que celui-là, c’est parce qu’on a prouvé son efficacité à l’aide de formules dont je vous fais grâce. Différentes techniques de construction des estimateurs existent : les moments, le maximum de vraisemblance, les moindres carrés…

 

estimateur

plus de livres (France)    plus de livres (Canada)