Hypothèses de la régression linéaire

Les hypothèses de validité d'une régression linéaire

Qu’elle soit simple ou multiple, la régression linéaire suppose qu’un certains nombre d’hypothèses soient vérifiées. Si l’une d’elles ne l’est pas, c’est que l’on est passé à côté de quelque chose !

 

Avant l'analyse...

Certaines hypothèses définissent la structure du modèle.

La première paraît évidente, et pourtant…

Les observations sont mesurées sans erreur ! Souvent invérifiable par le data analyst, cette hypothèse est parfois un peu tirée par les cheveux. Elle est valable dans un cadre de statistiques descriptives mais elle peut être assouplie. D'une part, un biais peut exister, toujours dans le même sens. Par exemple, un échantillonnage aléatoire mal ficelé peut se traduire par une mesure toujours majorée. Si l'on a évalué ce biais lors d'une étude antérieure, on peut le retirer. D'autre part, on peut admettre que les erreurs sont nulles en moyenne car elles se compensent. Nous reviendrons sur cette hypothèse très importante.

Deuxième condition : dans le cas d’une régression multiple, il y a plus d’observations que de variables. Sinon, il ne peut y avoir de solution. Mais c’est aussi une question de bon sens… On ne fait pas de miracles.

Troisièmement, les variables explicatives d’une régression multiple ne se répètent pas entre elles : on ne peut pas envisager comme variables un prix hors taxe, un montant de TVA et un prix TTC puisque ce dernier est la somme des deux autres. Mathématiquement, c’est un problème de colinéarité. En pratique, même des variables presque colinéaires rendent un modèle instable. Pour que celui-ci soit robuste, il faut alors faire le ménage : si la matrice des corrélations indique une très forte liaison entre deux variables explicatives (corrélation positive ou négative), c’est que l’une d’elles est de trop.

Enfin, il n'existe aucune restriction a priori sur les valeurs des coefficients de régression.

nuage

 

Après une première analyse...

Les autres hypothèses sont stochastiques.

On considère que les observations sont des variables aléatoires car divers aléas ont pu affecter les données. Les erreurs sont ces écarts entre un modèle supposé existant et celui auquel on peut parvenir avec les informations dont on dispose.

Une fois le modèle établi, on remarque des différences avec les observations. Cette composante inexpliquée est celle des résidus (voir les estimateurs des moindres carrés).

Les hypothèses établies sur les erreurs sont invérifiables. Celles qui sont faites sur les résidus peuvent être vérifiées. Si le logiciel le permet, on peut visualiser graphiquement les résidus et détecter une condition non remplie. Dans la mesure où cette page traite de la validité d'un modèle et non des hypothèses sur lesquelles repose la théorie de la régression, nous laisserons de côté les erreurs pour nous intéresser aux seuls résidus.

On considère ces résidus comme une variable aléatoire additive dont la moyenne est nulle. C’est plus la conséquence logique d’un modèle correctement spécifié qu’une réelle hypothèse…

On suppose ensuite que ces résidus sont totalement décorrélés entre eux. Cette hypothèse concerne essentiellement les séries chronologiques, en particulier lorsqu'une désaisonnalisation n'a pas été correctement conduite. Mais un modèle mal choisi, par exemple linéaire alors qu’une régression sur tendance exponentielle aurait été plus adéquate, montre lui aussi une autocorrélation des résidus. Si la régression est simple, le meilleur outil de détection reste l'observation graphique. Si la régression est multiple, on s'intéresse au test de Durbin-Watson et au corrélogramme. Les logiciels de statistiques permettent souvent de déterminer en un clin d'oeil le modèle le mieux adapté.

On suppose en outre que les résidus ont tous la même variance (homoscédasticité). Prenons l’exemple de ventes qui augmentent fortement en fonction du temps : les écarts, positifs ou négatifs, entre le modèle et la réalité ne doivent pas se creuser proportionnellement au volume des ventes.

Dans le cadre d’une régression multiple, il y a indépendance entre les résidus et chaque variable explicative (covariances nulles).

Enfin, les valeurs des résidus suivent une loi normale. Votre logiciel inclut peut-être un test de normalité des résidus dans le traitement de la régression. Dans le cas contraire, il faut en extraire la liste et les examiner (vérifiable par les tests de normalité et la droite de Henry). Cette hypothèse n’est pas nécessaire pour établir l’équation de la régression mais elle l’est pour établir des intervalles de confiance autour des paramètres. En pratique, on se passe de cette vérification au-delà d'une trentaine d'observations.

Il résulte de ces hypothèses stochastiques que, dans le cadre d'une régression linéaire multiple, la matrice des variances-covariances des résidus est tout simplement la variance résiduelle que multiplie la matrice identité.

Alors ? Tous les feux sont au vert ? Parfait. Analysez, maintenant…

 

tueur de résidus