La mesure de corrélation linéaire
Le coefficient de corrélation linéaire, ou de Bravais-Pearson, est tellement connu qu’on ne le présente plus. Sauf que je le présente quand même. En effet, certaines subtilités méritent un arrêt sur image. Dans le cadre d’une régression linéaire simple, on « résume » graphiquement un nuage de points par une droite, dite de régression. Ce résumé est plus ou moins bon, selon qu’on lie un volume de vente aux remises promotionnelles ou qu’on estime la production de berlingots de Montélimar par le taux de natalité dans l’île de Sumatra. On mesure la « qualité » de cette régression par le coefficient de corrélation. C'est la covariance entre la variable explicative x et la variable à expliquer y, rapportée au produit de leurs écarts-types. Comme une covariance est forcément inférieure ou égale au produit des écarts-type, le coefficient est compris entre -1 et 1. Un signe négatif indique que y varie en sens inverse de x et on parle alors de corrélation négative. Si le coefficient est proche de 0, les deux variables sont linéairement indépendantes tandis qu'une liaison linéaire est d'autant plus marquée que le coefficient s'approche de 1 ou de -1. On remarque qu’il reste égal à lui-même, que la régression soit effectuée de y en x ou de x en y. C’est un nombre sans dimension, indépendant des unités de mesure des observations puisqu’on a « standardisé » la covariance. J’ai noté ce coefficient r. Certains préfèrent la lettre grecque rhô (ρ), au risque de le confondre avec le coefficient de Spearman. D’autres auteurs utilisent r pour un échantillon et ρ pour une population. Comme il mesure l'intensité qui lie deux variables seulement, le coefficient de corrélation ne peut résumer la qualité d’une régression multiple. Toutefois, il conserve dans ce cadre son utilité : calculé pour chaque paire de variables explicatives, il alimente la matrice des corrélations. Par conséquent, il permet de repérer les variables superflues. Le carré du coefficient de corrélation est le coefficient de détermination (R²). Enfin, la suite de coefficients de corrélation d’une série chronologique avec elle-même selon un décalage de k (k = 1, 2, etc.), c’est-à-dire la suite des coefficients d’autocorrélation, s’appelle une fonction d'autocorrélation, visualisable sur un corrélogramme. Voici pour les présentations. A partir de quelle valeur de r considère-t-on que la corrélation est significative ? On a coutume de dire : « plus le coefficient est proche de 1, meilleure est la corrélation ». Certes, certes… Plus précisément, c’est le nombre d’observations n, ou plutôt le nombre de degrés de liberté (n – 2 pour une régression simple), qui détermine une valeur limite, pour un niveau de risque d’erreur donné, et il existe pour cela des tables du r. Elles sont rarement reprises dans les manuels de statistiques (voir tout de même G. Saporta, Probabilités, analyse des données et statistique, Technip : table jusqu’à 200 degrés de liberté). En revanche, on peut construire une statistique avec r et la comparer avec un t de Student :
On procède également au test du F à partir du coefficient de détermination. Extrait de la table du coefficient de Pearson (pour un risque alpha de 5 %) :
Si l’on travaille sur un échantillon, le coefficient de Pearson est une variable aléatoire. On situe l'estimation de sa vraie valeur dans un intervalle de confiance. Exemples Sur Excel : je vous renvoie à la page régression linéaire simple avec Excel. Une application à la gestion figure en page choix des unités d'œuvre. Sur Statistica : pour une étude de marché, on demande à vingt répondants de noter un produit sur 4. On veut savoir si leur âge peut expliquer une perception différente de ce produit. Nous ne disposons que de tranches d’âge et nous utiliserons les centres de classes.
Les sorties de la régression sont les suivantes (extrait) :
Pour un niveau de confiance de 0,95, le coefficient de 0,509 est significatif puisqu’il est supérieur à 0,44 (18 degrés de liberté). Mais la régression n’explique que très moyennement la dispersion : le R² est de 0,259. La variance totale n’est expliquée qu’à 25,9 % par la régression linéaire. Le R² ajusté s’établit à 0,218. Dans la mesure où la corrélation semble couci-couça, il aurait été intéressant de relever le véritable âge des répondants, ce qui aurait peut-être fait basculer nos conclusions d’un côté ou de l’autre.
|








