Théorème de König et propriétés de la variance
Une page un peu théorique mais qui vous donnera un aperçu des nombreuses vertus de la variance, ingrédient de base de nombreuses potions élaborées dans l’antre du statisticien… Il existe deux versions heureusement très proches de la variance, indicateur de dispersion d'une variable aléatoire autour de sa moyenne, selon qu’on se situe dans le cadre de l’estimation ou dans celui des statistiques descriptives. Cette page n’évoque que cette deuxième option, qui est celle apprise au lycée et en début d’études supérieures. Présentation et théorème de König-Huygens La variance d’une série d’observations est la moyenne des carrés des écarts à la moyenne, soit :
Rejetant toute originalité, j’ai nommé n le nombre d’observations et m la moyenne arithmétique. Concrètement, cette formule peut être explicitée par le tableau Excel ci-dessous. Soit un créateur de rosiers qui souhaite mettre sur le marché une nouvelle variété. Un des critères de qualité est que les nombre de fleurs soit à peu près homogène pour chaque pied. Notre créateur calcule manuellement la variance du nombre de roses le même jour sur quinze pieds différents.
Ce résultat de 6,9156 n’est pas directement exploitable par notre créateur mais tenons-nous ici au simple calcul de la variance. Ce dernier peut être conduit d’une autre façon (oui, je sais, avec une calculatrice, mais je vous ai dit que vous étiez sur une page de THÉORIE !). Cette autre façon, beaucoup plus pratique, utilise le théorème de König (ou Koenig) : la moyenne des carrés moins le carré de la moyenne, soit...
Les mêmes données présentées selon ce principe :
Voyons à présent d'autres propriétés... Transformation linéaire
La constante b ne compte pas, la variance entre les valeurs 10 010, 10 020 et 10 030 étant la même qu’entre 10, 20 et 30, c’est-à-dire 66,67. Ce résultat est aussi égal à 10² fois la variance entre les valeurs 1, 2 et 3. Variance d’une somme La formule a des faux airs d’identité remarquable :
Si les variables X et Y sont indépendantes, la covariance est nulle et la formule devient on ne peut plus simple. Le cas est très fréquent puisqu’on le rencontre chaque fois qu’on procède à une régression simple ou multiple où la variance totale est décomposée en une variance expliquée par le modèle de régression et une variance résiduelle (dispersion inexpliquée des points autour de la droite de régression, voir page coefficient de détermination). Ces deux propriétés peuvent bien entendu être combinées. Soit par exemple une variable aléatoire qui est une combinaison linéaire de deux autres : Z = aX + bY. Comment pourrait-on écrire l’écart-type de Z ? Rappelons la formule du coefficient de corrélation linéaire :
La covariance peut donc s’écrire rσxσy. Du coup, l’écart-type de Z peut se décomposer ainsi :
Voir une application pratique de cette formule, entrée dans un tableau Excel, en page exemple de frontière efficiente (si vous n'êtes pas réfractaire à la finance).
|








