Maximum de vraisemblance
La vraisemblance J’ouvre mon Petit Larousse et je lis : « Vraisemblance n.f. Caractère de ce qui est vraisemblable, a l’apparence de la vérité. » Qu’est-ce-que la vérité pour un statisticien ? Je ne vais pas vous dispenser un cours de philosophie, ce n’est pas mon fort. Il y a peut-être le statisticien irréaliste qui cherche LE modèle qui décrira parfaitement toute situation réelle et le statisticien modeste pour qui une loi de probabilité constitue déjà une forme de perfection. Donc, hypothèse : nous sommes modestes. La vraisemblance (Likelihood) mesure l’adéquation entre un échantillon aléatoire et une loi de probabilité que nous estimons être la plus proche de la distribution observée (en principe au regard d'un graphique). Comment ? Nous connaissons la fonction de densité de la loi de probabilité (par exemple une loi normale mais ce peut être une loi discrète). Cependant, c’est une COQUILLE VIDE puisque nous ignorons ses paramètres (espérance, variance, covariances…). N’ayant pas d’autre choix, nous les estimons à partir de notre échantillon. Il existe plusieurs façons d’y parvenir. L’utilisation de la vraisemblance est l’une d’entre elles. Supposons que l’on compare notre distribution à une loi discrète, de Poisson par exemple. Pour chaque observation (mettons 0, 1, 2…), on ne retient pas la probabilité observée mais celle qu’on aurait eu avec la loi de Poisson (c’est-à-dire qu’on remplace le x de la formule de la distribution de Poisson par 0, 1, 2…). Le produit de toutes ces probabilités s’appelle la vraisemblance. Bon, ce n’est plus vraiment la définition du Petit Larousse… La vraisemblance L s’écrit donc ainsi :
Ou, si l’on observe des fréquences (p) :
Certes, cette mesure est réductrice puisqu’on résume une adéquation par un seul chiffre mais il s’agit là d’une démarche habituelle, en statistiques comme ailleurs… Plus la vraisemblance est proche de zéro, moins l’adéquation à la loi est bonne. La fonction de vraisemblance Maintenant que nous avons défini la vraisemblance, nous comprenons qu’elle varie en fonction du ou des paramètres de la loi en question. Il peut s’agir du lambda de la loi de Poisson, de la moyenne et de l’écart-type d’une loi normale, etc. Habituellement, quand on parle d’un paramètre de façon générale, on le nomme « thêta » (comme on appelle « lambda » l’homme de la rue…). La fonction de vraisemblance s’écrit alors ainsi (sous thêta peuvent se cacher un ou plusieurs paramètres) :
Le grand intérêt de cette fonction est de déterminer pour quelle(s) valeur(s) de θ la fonction de vraisemblance sera maximale. Le maximum de vraisemblance En fait, il est plus pratique d’utiliser le logarithme de cette fonction (on n’a jamais fait mieux pour remplacer un produit par une somme). Dans la mesure où la fonction ln est croissante, le maximum de la fonction de vraisemblance est aussi celui de la log-vraisemblance. Une dérivée nulle étant un moyen éprouvé de trouver un extrémum, on pose l’équation de vraisemblance :
En général, dans les démonstrations, on étudie aussi la dérivée seconde pour s’assurer qu’il s’agit bien d’un maximum (histoire de vérifier qu’on n’a pas bêtement choisi le pire estimateur…). Utilisation Tout ceci semble bien théorique. Le maximum de vraisemblance sert à démontrer que tel estimateur est le meilleur mais du moment qu’on sait, par exemple, que la moyenne de notre échantillon peut être considérée comme étant l’espérance de toute la population, peu importe le cheminement de la démonstration ! Un intérêt pratique est que le calcul de l’estimateur du maximum de vraisemblance (EMV) est réalisé par les logiciels qui ajustent les observations d’un échantillon à une distribution (proposant parfois d’autres méthodes). La présentation des étapes que je reprends ci-dessous doit beaucoup au manuel du logiciel @RISK de Palisade : L’état des lieux : nous avons observé une ou plusieurs variables sur un ou plusieurs échantillons. On souhaite s’en servir pour estimer une fonction de densité (ou une fonction cumulative) représentative de toute la population puis d’utiliser ce modèle pour estimer un tas de choses passionnantes. Ensuite, vous ou votre logiciel choisissez un certain nombre de distributions candidates. À titre d’exemple, @RISK connaît une quarantaine de lois de probabilité. Étape suivante, le logiciel détermine le ou les paramètres des lois candidates par la méthode de l’EMV (ou d’autres approches, comme les moindres carrés). Enfin, les distributions candidates, armées de leurs paramètres estimés par maximum de vraisemblance, sont toutes comparées à la distribution empirique. Ici aussi, il existe un choix de techniques pour juger la meilleure adéquation (Kolmogorov-Smirnov, khi², indicateurs d’écart…). Bien sûr, les techniques à utiliser diffèrent selon qu’il s’agit d’une loi discrète ou continue. Et c’est ainsi qu’un pauvre histogramme s’habille d’une sublime loi de probabilité qui lui colle au corps comme aucune autre…
|



