Introduction à la régression linéaire simple (RLS)
Le terme, au demeurant stupide, de « régression » est connu de tous. Soit une distribution à deux variables quantitatives. La RLS permet de chercher l'éventuelle relation fonctionnelle linéaire qui existerait entre une valeur EXPLICATIVE (ou indépendante) x et une variable aléatoire À EXPLIQUER (ou dépendante) y. Dans le système de notation retenu sur ce site web, x est remplacé par t s’il s’agit d’une mesure du temps. Graphiquement, on représente cette éventuelle relation en se munissant d'un axe des abscisses x pour représenter la variable qui explique, d'un axe des ordonnées y pour représenter ce que l'on cherche à expliquer et, dans le plan créé par ces axes, en plaçant un nuage de points. Autant de points que d'observations différentes. S'il existe une relation linéaire déterministe entre les deux variables, les points sont parfaitement alignés. En mathématiques, on dit que la droite qui les relie représente une fonction affine (en statistiques, on emploie un peu abusivement le terme LINÉAIRE plutôt qu'AFFINE). Toutefois, on ne trouve jamais de relation parfaite en utilisant des données brutes, à moins de vérifier une définition (auquel cas on parle de modèle DÉTERMINISTE)... La relation est STOCHASTIQUE, c'est-à-dire qu'elle comporte une part d'aléas. La RLS cherche à modéliser cette relation par une équation et l'analyse de corrélation vise à en évaluer la qualité. Ce type d'analyse peut d'ailleurs être utilisé pour des relations non linéaires mais qui peuvent être transformées en fonction affine à condition d’utiliser des variables auxiliaires (voir régression simple sur tendance exponentielle). En pratique, il est toutefois rare de passer par là puisque n'importe quel logiciel effectue des régressions non linéaires. Si les données sont présentées en fourchettes de valeurs, on remplace ces dernières par les valeurs centrales des classes. Petites mises en garde d’usage Attention, relation fonctionnelle ne signifie pas forcément causalité. Si les ventes de crèmes glacées sont corrélées aux ventes de ventilateurs, il n’y a pas de lien direct entre ces deux évolutions mais avec un troisième phénomène qui est la chaleur… Le job de la corrélation partielle consiste à vérifier si ce genre de liaison existe. La RLS est particulièrement sensible aux valeurs aberrantes, surtout si elle est effectuée sur un petit nombre d’observations. Lorsque ces outliers risquent de fausser l’analyse, il vaut mieux les exclure ou les imputer, voire opter pour une autre méthode que la RLS. Par ailleurs, il faut au moins une douzaine d’observations pour tirer des conclusions d’une régression, en particulier lorsqu’on s’intéresse à des comportements humains ou à des variations d’ordre économique. Il est toutefois courant de se satisfaire de moins. La droite de régression Bref. Nous observons un nuage de forme plus ou moins rectiligne. Comment trouver l'équation de la droite qui le résume au mieux ? En minimisant les distances qui la séparent des points. Quelles distances ? Généralement les carrés des distances euclidiennes parce que l’utilisation des valeurs absolues nous bloquerait dans une impasse mathématique un peu longue à expliquer (mais certains logiciels permettent de réaliser ce type de régression). D'où l'expression droite des moindres carrés. Graphiquement, il s’agit des distances VERTICALES, parallèles à l’axe y. Ci-dessous, la flèche noire indique, pour l'observation n° 7, la distance entre le modèle théorique (droite rouge) et la réalité (point bleu).
Et pourquoi pas des distances horizontales ou perpendiculaires ? Les droites que ces distances permettraient de tracer résumeraient également le nuage des observations mais les distances horizontales impliqueraient une explication de x en fonction de y et les distances orthogonales supposeraient une symétrie, comme dans le cadre de l’ACP. Cela dit, les trois droites possibles se coupent au centre de gravité du nuage de points (coordonnées : moyenne des abscisses et moyenne des ordonnées). Les tableurs et les logiciels ayant une fonction statistique calculent l’équation de cette fameuse droite d’ajustement (y = ax + b), appelée droite de régression empirique, droite des moindres carrés (les termes sont synonymes dans le cas de la RLS) ou tendance si les abscisses représentent des dates ou des périodes. Les formules des deux paramètres font partie de la culture de tout statisticien :
a est le coefficient de régression (c'est aussi le bêta de l'analyse financière) et b est la constante de régression (intercept). Il est démontré que ce sont les meilleurs estimateurs en page moindres carrés. Sur Excel, a correspond à la fonction PENTE et b à la fonction ORDONNEE.ORIGINE. On les retrouve aussi par la fonction DROITEREG qui reprend les principaux paramètres d’une régression. En fonction de la dispersion des points autour de la droite, l’ajustement peut être de plus ou moins bonne qualité. Il est mesuré par les coefficients de corrélation (r) et de détermination (R²). Par ailleurs, la droite de régression n’est pas gravée dans le marbre : la tendance d’une série temporelle peut être modifiée par une nouvelle observation, les données ont pu être entachées d’erreurs de mesure… Ses paramètres a et b sont donc eux aussi des variables ALÉATOIRES, tout comme les RÉSIDUS (c'est-à-dire les écarts ; Cf. la flèche noire du graphe ci-dessus). Par conséquent, les paramètres a et b ont tous deux une espérance (moyenne) et une variance. Davantage d'informations en page estimateurs de la régression simple. Interprétation Si le coefficient de corrélation est suffisamment élevé, le modèle peut-être utilisé pour des applications prédictives ou prévisionnelles. On remplace alors l'inconnue x dans l’équation de la droite et l'on obtient une estimation de l’ordonnée qui lui correspond. En général, on procède à une extrapolation : graphiquement, on prolonge la droite. Toutefois, le modèle peut être meilleur si l’équation d'une courbe remplace celle de la droite (lorsque le nuage de points présente une forme de banane), ou en ajoutant une deuxième variable explicative. Outre la connaissance « métier » du sujet, c’est l’observation des résidus qui doit mettre la puce à l’oreille (voir hypothèses de validité de la régression linéaire). Exemples Surtout ne manquez pas la page exemple de RLS sur Excel. Vous trouverez comment utiliser la CALCULATRICE TI-82 en page régression logarithmique. Éventuellement, voir une sortie de Statistica en page coefficient de corrélation et un état de XLSTAT en page Durbin-Watson.
|





