mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Paramètres et erreurs de la régression linéaire simple

Sur cette page je vous propose de faire plus ample connaissance avec les paramètres de la régression linéaire simple (RLS). Mais avant de procéder aux présentations, rappelons le contexte.

On cherche une liaison qui existerait entre deux variables. Liaison stochastique, c’est-à-dire partiellement aléatoire. On peut essayer de déterminer l’âge d’un arbre par la circonférence de son tronc : on trouvera une liaison, certes, mais pas parfaite… Toutes les modélisations conduites dans les domaines économiques et sociaux cherchent d'ailleurs à prédire la valeur d'une variable aléatoire (v.a). On se donne une variable x et on tente de trouver : pour telle circonférence, quel âge l’arbre peut-il bien avoir ?

De plus, le modèle est généralement établi à partir d’un ÉCHANTILLON. Ce serait peine perdue de mesurer TOUS les troncs d’arbre, la partie aléatoire existera toujours (due au sol, à la météo, aux maladies…). Quant aux observations de séries temporelles, on considère aussi qu’elles forment un échantillon puisque le modèle sera extrapolé aux observations à venir.

Notez que la théorie de la régression est échafaudée sur l’HYPOTHÈSE qu’une relation existe bel et bien. Ce n’est pas pour autant qu’on bâtit notre modèle de régression sur du sable puisqu’on validera sa pertinence grâce au coefficient de corrélation.

Donc, les deux paramètres que fournit une RLS dans un cadre descriptif sont en fait deux v.a.

Erreurs et résidus

Définissons deux concepts afin d'éviter des confusions. On suppose qu’un vrai modèle existe pour représenter la réalité. Mais des erreurs de mesure polluent les observations. De quels types ? Il y a la donnée fausse, provenant par exemple d’un répondant qui n'ose avouer à cette belle enquêtrice qu'il ne se brosse jamais les dents ou d’un enquêteur un peu bousculé par le temps et qui relève mal ce qu’on lui déclare... Il y a la perte d’information, évidente lorsqu’on répartit des données quantitatives dans des classes de valeurs… Ces erreurs sont donc des v.a et on est un peu obligé de faire l'hypothèse que leur espérance est nulle (pour faire court, une erreur dans un sens sera contrebalancée par une erreur dans l'autre sens). Sur certaines enquêtes, on sait à l'avance que ce n'est pas le cas mais on n'approfondira pas ici la correction de ce type de biais. On suppose aussi que les erreurs suivent une loi normale.

Elles sont notées ε (epsilon).

Un second type d’erreur est dû au modèle qui ne colle pas parfaitement à la réalité. Ce sont les résidus. Exemple caricatural, le choix d’une régression linéaire plutôt qu’une régression sur tendance logarithmique implique l’existence de résidus. Tout modèle étant une simplification, leur présence est tout à fait normale et d'ailleurs pas spécifique aux régressions. Entre plusieurs méthodes ou valeurs de paramètres, on choisit le modèle qui minimise les résidus (d'autres critères s'ajoutant à celui-ci, notamment la robustesse). Graphiquement, si un point se situe au-dessous de la droite de régression empirique, le résidu associé à cette observation est négatif et inversement s'il la survole. Évidemment, il s'agit là aussi de v.a. On fait plusieurs hypothèses sur les résidus.

Ceux-ci sont sont notés e.

Par hypothèse, les erreurs ne sont pas autocorrélées (nullité de la matrice des variances-covariances) alors que les résidus peuvent l’être.

Régression linéaire simple

La RLS nous fournit l’équation d’une fonction affine, c’est-à-dire de type y = ax + b. Ces paramètres a et b sont les estimateurs d'espérances des deux v.a. qui résument une liaison. On démontre sans trop de difficultés que ces espérances sont sans biais, ce qui paraît très naturel... Je vous renvoie aux ouvrages sur le sujet pour dévorer la démonstration (assez simple, d’ailleurs).

La représentation graphique de cette fonction est la droite des moindres carrés.

Pour indiquer la qualité de v.a des paramètres, on les affuble parfois d'accents circonflexes prononcés « chapeau », afin de les différencier des paramètres supposés existants qui vont tête nue.

Toute valeur yi vérifie donc l’égalité suivante :

équation de la RLS

Par hypothèse, ce « bruit » ε suit une loi normale d’espérance nulle. Globalement, les erreurs sont plus ou moins importantes et le modèle se caractérise donc par un troisième paramètre qui est leur variance (σ²). Nous avons vu que la moyenne des erreurs est supposée nulle. Si l’on a en tête le théorème de Koening, il devient alors évident que la variance des erreurs se résume à l’espérance de leurs carrés.

Le calcul des paramètres

Rappelons le moyen de calculer les paramètres dans le cadre d'une relation déterministe (la démonstration illustre la page dérivée partielle) :

estimateurs

Nous avons vu que les espérances des estimateurs de ces paramètres étaient sans biais mais quid de leurs variances ? Là aussi, des démonstrations permettent de les estimer mais elles font intervenir σ² qui est inconnue. Qu’à cela ne tienne, estimons-la…

Oui mais voilà, comment savoir si les données ont été correctement collationnées ? Mystère. Il faut supposer que le modèle calculé reflète bien le mystérieux modèle qui met la réalité en équation. Du coup, on considère que les erreurs sont égales aux résidus. NB : surtout ne soyez pas trop dubitatif en constatant l'avalanche d'hypothèses qui président aux régressions. Si cette méthode est si utilisée, c'est bien que le cadre n'est pas aussi rigide qu'il en a l'air...

Bref, cette nouvelle hypothèse nous permet de déterminer un estimateur de σ² appelé erreur quadratique moyenne (MSE).

MSE

C’est donc la somme des carrés des résidus divisée par n – 2. Elle apparaît dans le tableau de l'ANOVA.

La variance de â peut alors être établie :

variance de a

Quant à la variance de l’estimateur de b, elle est égale à…

variance de b

Les écarts-types des estimateurs font partie des indicateurs habituels que fournissent logiciels de statistiques et tableurs (voir l’état d’Excel en page exemple de RLS). Il est évident que plus un paramètre a une dispersion forte, moins il est précis et moins bonne est la qualité du modèle. Ces écarts-types permettent de construire des intervalles de prévision.

Quant à la covariance entre les deux estimateurs, elle est du signe contraire à la moyenne des xi. Dans le cas le plus courant (variable explicative à valeurs positives), elle est donc négative. C’est parfaitement logique. Si deux nuages de points présentent un même barycentre, la droite des moindres carrés qui montre la pente la plus raide (a élevé) a forcément l’ordonnée à l’origine la plus basse (b faible) et vice versa.

Si l’on souhaite que ces deux paramètres soient parfaitement décorrélés, il faut centrer la variable explicative.

covariance

Ajoutons que la covariance entre erreurs et â est nulle. Bien entendu, puisqu’il y a estimation d’une variance et hypothèse de normalité, il y a possibilité d’établir des intervalles de confiance. C’est fou ce qu’on peut déduire d’un simple nuage de points, même très petit…

Quant à la variance des résidus, elle n’est pas estimée puisqu’elle est calculée… Elle ne peut pas être supérieure à la variance des erreurs.

 

erreur vs résidu

plus de livres (France)    plus de livres (Canada)