Coefficient de détermination et coefficient ajusté
Très important. Un V.I.P de la modélisation. Mais on lui fait parfois dire ce qu’on veut… Définition Le coefficient de détermination (R²) est un indicateur qui permet de juger la qualité d’une régression linéaire, simple ou multiple. D’une valeur comprise entre 0 et 1, il mesure l’adéquation entre le modèle et les données observées. Certes, le R² a ses imperfections, mais son utilité n’a d’égale que sa simplicité. Deux façons de le définir (entre autres) : Dans le cadre d’une régression linéaire simple, c’est le carré du coefficient de corrélation. La deuxième façon est beaucoup plus riche en implications car elle s’applique aussi bien à une régression simple qu’à une régression multiple. On sait que la valeur yi d’une observation peut être décomposée en deux parties : une part expliquée par le modèle et une part résiduelle. La dispersion de l’ensemble des observations se décompose donc en variance expliquée par la régression et en variance résiduelle (MSE), inexpliquée. Le R² se définit alors comme la part de variance expliquée par rapport à la variance totale, autrement dit de [(1 – somme des carrés des résidus) / somme des carrés totale] la somme des carrés totale étant la somme des carrés des distances entre les points du nuage et une droite horizontale qui passerait par son centre de gravité.
SCR est la somme des carrés des résidus. SCT est la somme des carrés totaux. On peut tester si ce coefficient est significativement non nul avec un test du F à k et n – k – 1 degrés de liberté (k étant le nombre de variables explicatives). Ce test n’utilise pas directement le R² car il suppose un rapport de variances indépendantes, ce qui n’est pas le cas. Au numérateur de la statistique F se trouve donc la variance expliquée par la régression et au dénominateur se trouve la variance résiduelle divisée par n – k – 1. Dans la mesure où la qualité de la régression s’apprécie par une comparaison de variances, les logiciels fournissent le tableau de l’ANOVA… Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le principal défaut du R² est de croître avec le nombre de variables explicatives. Or, on sait qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse davantage à cet indicateur qu’au R². Mais ce n’est pas un véritable « carré » et il peut même être négatif. Voici deux présentations du R² ajusté, sachant que certains auteurs donnent une définition légèrement différente :
D'autres critères, comme l'AIC, permettent de comparer la qualité de différents modèles. Une autre précaution d’usage concerne la variable à expliquer : selon qu’il s’agit d’un stock ou d’un flux, la dispersion entre les valeurs est forcément différente… Dans le même ordre d’idée, le R² appliqué à un modèle chronologique sera évidemment plus élevé si la variable dépendante est un montant que si elle représente la progression d’une période sur l’autre ! D'une façon générale, il faut redoubler de méfiance vis-à-vis du R² si la série est chronologique (voir page régression avec saisonnalité). Exemple de coefficient de détermination Données :
La variable à expliquer est y et les quatre variables explicatives sont les coordonnées sur des axes factoriels, établies à partir d’une ACP. XLSTAT nous fournit les résultats suivants (extraits d’une procédure de régression multiple) :
La troisième ligne correspond au R² ajusté. Le modèle (non repris ici) sera excellent puisqu'il explique 98 % de la variation de y. L’analyse de la variance apparaît ainsi, nous confirmant que la variance expliquée est significativement plus élevée que la résiduelle :
Les autres logiciels (Tanagra ou SPSS, par exemple) restituent une présentation très proche (seul le nombre de décimales change !)
|






