Le coefficient de détermination

Coefficient de détermination et R² ajusté

Très important. Un VIP de la modélisation. Mais on lui fait parfois dire ce qu’on veut…

 

Présentation

Le coefficient de détermination mesure l'adéquation entre un modèle issu d’une régression linéaire simple ou multiple et les données observées (ou les réalisations des variables aléatoires) qui ont permis de l'établir. C'est par exemple un outil du data scientist qui mesure l'adéquation de son modèle prédictif avec la réalité.

Certes, il a ses imperfections, mais son utilité n’a d’égale que sa simplicité.

Deux façons de l'établir :

Dans le cadre d’une régression linéaire simple, le plus rapide est d'élever au carré le coefficient de corrélation.

On le note alors avec une minuscule : \(r^2\) dans le cadre de statistiques descriptives ou \(\rho^2\) si une estimation a été produite sur un échantillon. En revanche, lorsqu'il existe plusieurs séries de variables aléatoires éventuellement explicatives (régression multiple), on le note généralement avec une majuscule \(R^2\).

R²

Présenté ainsi, vous devinez une propriété du coefficient de détermination : il se situe entre 0 (le modèle linéaire ne vaut rien) et 1 (il est parfait). Mais cette approche pratique n'explique en rien la raison d'être de cet indicateur statistique.

La deuxième manière est beaucoup plus riche en implications car elle s’applique aussi bien à une régression simple qu’à une régression multiple. Surtout, elle permet de comprendre sa signification.

Bref rappel. Soit \(y_i\) une valeur prise par la variable \(Y\) que l'on cherche à expliquer. Elle peut être décomposée en deux parties : l'une expliquée par le modèle et l'autre résiduelle, due par exemple à des aléas que l'on appelle erreurs.

Donc, pour une observation \(y_i,\) nous avons l’égalité suivante :

\((y_i - \overline{y})\) \(=\) \((\widehat{y}_i - \overline{y}) + (y_i - \widehat{y}_i)\)

Le premier terme représente la variation expliquée et le second la variation inexpliquée.

Cette égalité s’étend à la somme des carrés :

\(\displaystyle{\sum\limits_{i = 1}^n {(y_i - \overline{y})^2}}\) \(=\) \(\displaystyle{\sum\limits_{i = 1}^n {(\widehat{y}_i - \overline{y})^2} + \sum\limits_{i = 1}^n {(y_i - \widehat{y}_i)^2}}\)

Dit autrement, la somme des carrés totale est égale à la somme des carrés expliqués plus la somme des carrés des résidus.

Si l’on divise toutes nos sommes par \(n,\) nous pouvons l’exprimer autrement : la dispersion de l’ensemble des observations s'exprime par une variance totale qui est la somme de la variance expliquée par la régression et de la « variance » résiduelle (MSE), inexpliquée.

\(\displaystyle{\sum\limits_{i = 1}^n {\frac{(y_i - \overline{y})^2}{n}}}\) \(=\) \(\displaystyle{\sum\limits_{i = 1}^n {\frac{(\widehat{y}_i - \overline{y})^2}{n}} + \sum\limits_{i = 1}^n {\frac{(y_i - \widehat{y}_i)^2}{n}}}\)

Le rapport entre la variance expliquée et la variance totale est le coefficient de détermination \(R^2,\) compris entre 0 et 1. Plus il est proche de 1, plus le modèle est légitime. Par exemple, un coefficient de 0,8 indique que \(80\%\) de la dispersion est expliquée par le modèle de régression.

On peut aussi bien écrire : \(\displaystyle{{R^2} = 1 - \frac{{\rm{SCR}}}{{\rm{SCT}}}}\)

\(\rm{SCR}\) est la somme des carrés des résidus. \(\rm{SCT}\) est la somme des carrés totaux.

 

Inférence

L’intérêt de la régression est généralement de faire de l’inférence. Elle est très souvent réalisée sur un échantillon et l'équation du modèle est appelée à s'appliquer à une population entière. De même lorsqu'il s'agit d'une évolution dans le temps, on souhaite étendre au futur le modèle établi sur le passé.

La question qui se pose est celle de la validité de notre \(R^2\) sur un ensemble plus large puisqu'il a été établi à partir de réalisations de variables aléatoires.

Bonne nouvelle, il est un estimateur sans biais du \(r^2\) inconnu qui aurait été obtenu en analysant l'ensemble de la population.

On peut tester s'il est significativement non nul avec un test du F de Fisher-Snedecor à \(k\) et \(n-k-1\) degrés de liberté (\(k\) étant le nombre de variables explicatives). Ce test n’utilise pas directement le \(R^2\) car il suppose un rapport de variances indépendantes, ce qui n’est pas le cas. Au numérateur de la statistique F se trouve donc la variance expliquée par la régression et au dénominateur se trouve la variance résiduelle divisée par \(n - k - 1.\) Dans la mesure où la qualité de la régression s’apprécie par une comparaison de variances, les logiciels fournissent le tableau de l’ANOVA… Voir la régression multiple avec tableur (en l'occurrence Excel et l'add-in XLSTAT).

 

Coefficient ajusté

Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le principal défaut du \(R^2\) est de croître avec le nombre de variables explicatives. Or, on sait qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse davantage à cet indicateur qu’au \(R^2\). Mais ce n’est pas un véritable carré et il peut même être négatif. Voici deux expressions du \(R^2\) ajusté, sachant que certains auteurs lui donnent une définition légèrement différente :

\(R^2\) ajusté \(=\) \(\displaystyle{{R^2} - \frac{{k(1 - {R^2})}}{{n - k - 1}}}\) \( =\) \(\displaystyle{1 - \frac{{(1 - {R^2})(n - 1)}}{{n - k - 1}}}\)

D'autres critères, comme l'AIC, permettent de comparer la qualité de différents modèles.

 

Prudence...

Une autre précaution d’usage concerne la variable à expliquer : selon qu’il s’agit d’un stock ou d’un flux, la dispersion entre les valeurs est forcément différente…  Dans le même ordre d’idée, le \(R^2\) appliqué à un modèle chronologique sera évidemment plus élevé si la variable dépendante est un montant que si elle représente la progression d’une période sur l’autre ! D'une façon générale, il faut redoubler de méfiance vis-à-vis du \(R^2\) si la série est chronologique (voir la régression avec saisonnalité).

 

R²