mèche perceuse

 

 

 

 

 

 

 

 Covariance et matrice de variances-covariances

La covariance

Elle mesure la liaison linéaire qui peut exister entre deux variables quantitatives. Si elle est égale à zéro, les deux variables sont linéairement indépendantes.

La covariance n’est pas un indicateur final : on ne la retrouve pas sur le tableau de bord du manager. Elle constitue toutefois un rouage essentiel de toute la machinerie statistique.

Pour faire court, c’est la moyenne du produit des valeurs de deux variables moins le produit des deux moyennes. Cov(X,Y) = E(XY) – E(X).E(Y).

Si deux variables évoluent généralement dans le même sens, la covariance est de signe positif (exemple : température extérieure et consommation de crèmes glacées). Si elles évoluent dans le sens contraire, la covariance est négative (exemple : température extérieure et consommation de chauffage).

La covariance d’une variable avec elle-même (autocovariance) est tout simplement la variance. Cov (X,X) = V(X). Toutefois, une autocovariance ne s’applique pas forcément à toutes les valeurs, ce qui permet de calculer, même sur une série univariée, des covariances entre certains groupes de valeurs (exemple du corrélogramme).

Si la covariance n’est pas un indicateur final, c’est parce qu’elle mesure le lien de variables qui ne sont pas forcément comptabilisées dans la même unité. Pour revenir à notre exemple, X peut être mesurée en degrés et Y en nombre de glaces. Présentée telle quelle, la covariance ne signifie rien. Sauf si… Divisée par le produit des écarts-types, elle est alors standardisée et on peut la situer sur une échelle qui signifie quelque chose : elle s’est métamorphosée en coefficient de corrélation linéaire.

Enfin, la covariance possède des propriétés importantes mais qui passent inaperçues dans la vie quotidienne :

Cov(X + constante,Y) = Cov(X,Y)

Cov(aX,Y) = a Cov(X,Y)

La matrice des variances-covariances

Maintenant, situons-nous dans le cas de plusieurs variables. On peut alors calculer les covariances de chaque couple de variables puis les indiquer dans un tableau carré, et symétrique puisque Cov(X,Y) = Cov(Y,X). En diagonale, on trouve évidemment les variances.

Cette matrice travaille en coulisses et si un logiciel vous la restitue, elle ne sera pas d’une utilité vitale. Lorsqu’elle est réduite (écarts-types = 1), elle est égale à la matrice des corrélations et devient davantage opérationnelle.

La matrice de variances-covariances intervient dans l’établissement de plusieurs méthodes d’analyses multivariées assez proches les unes des autres.

Cette matrice, ou plutôt son inverse, permet de déterminer les coefficients de régression multiple lorsqu’on la multiplie à la matrice colonne des covariances entre les Xi et les Y. La matrice de variances-covariances des résidus, quant à elle, doit être égale à la matrice unité (des 0 partout sauf des 1 en diagonale) si les conditions de décorrélation et d’homoscédasticité sont parfaitement remplies.

L’AFD est une régression multiple particulière et se construit donc aussi sur la décomposition de la matrice des variances-covariances (intra-classes et entre les barycentres de classes).

La matrice des variances-covariances est utilisée dans le cadre des ACP non normées alors que la matrice des corrélations l’est, fort logiquement, dans le cadre des ACP normées.

 

troupeau

plus de livres (France)    plus de livres (Canada)