Les contributions à la variance

Analyse d'une dispersion

La forte dispersion d’une série statistique s’explique par certaines observations éloignées de la moyenne. Et comme en matière de statistiques tout est mesuré (ou probabilisé), nous pouvons chiffrer la contribution des différentes observations à la variance. À partir d’un exemple, nous montrerons comment faire avec des tableaux, puis avec un petit programme en langage R.

 

Calcul manuel

On s’intéresse au taux de remplissage d’une ligne de métro au départ d'une station au cours d’une journée. 120 rames sont observées.

Remplissage Effectif
\(0 - 20\%\) 1
\(20\% - 40\%\) 3
\(40\% - 50\%\) 11
\(50\% - 60\%\) 21
\(60\% - 70\%\) 35
\(70\% - 80\%\) 24
\(80\% - 90\%\) 12
\(90\% - 100\%\) 6
\(100\% - 110\%\) 4
\(110\% - 120\%\) 3

La première étape consiste à calculer la moyenne pondérée. Ce qui suppose dans cet exemple une étape préliminaire, le calcul des centres de classe.

Centres de classes Effectif \(n_i \times x_i\)
10 1 10
30 3 90
45 11 495
55 21 1 155
65 35 2 275
75 24 1 800
85 12 1 020
95 6 570
105 4 420
115 3 345
Somme 120 8 180

Moyenne = \(\displaystyle{\frac{8\,180}{120} \approx 68,167}.\)

Pour des raisons de mise en page et peut-être de clarté (à vous de voir !), nous présentons les différentes étapes sur des petits tableaux mais tout l’exercice peut être réalisé avec un seul.

Au lieu de calculer la moyenne à partir de la somme de la dernière colonne au carré comme il est d’usage (voir les propriétés de la variance), nous allons calculer les fréquences des effectifs puis appliquer chacune d'elles à chaque ligne.

Centres de classes Effectif Fréquence
10 1 0,008
30 3 0,025
45 11 0,092
55 21 0,175
65 35 0,292
75 24 0,200
85 12 0,100
95 6 0,050
105 4 0,033
115 3 0,025
Somme 120 1

Multiplions-les avec les carrés des écarts à la moyenne.

Centres Fréq. \((x_i - m)^2\) Variance
10 0,008 3 383,361 28,195
30 0,025 1 456,694 36,417
45 0,092 536,694 49,197
55 0,175 173,361 30,338
65 0,292 10,028 2,925
75 0,200 46,694 9,339
85 0,100 283,361 28,336
95 0,050 720,028 36,001
105 0,033 1 356,694 45,223
115 0,025 2 193,361 54,834
Somme 1   320,806

La dernière colonne est celle des contributions absolues à la variance, qui s'établit à 320,806. Mais les contributions relatives (proportion de chaque ligne par rapport à 320,806) sont plus parlantes. Pour ce dernier tableau, nous avons repris les classes de l’énoncé.

Remplissage Contribution relative à la variance
\(0 - 20\%\) \(8,79\%\)
\(20\% - 40\%\) \(11,35\%\)
\(40\% - 50\%\) \(15,34\%\)
\(50\% - 60\%\) \(9,46\%\)
\(60\% - 70\%\) \(0,91\%\)
\(70\% - 80\%\) \(2,91\%\)
\(80\% - 90\%\) \(8,83\%\)
\(90\% - 100\%\) \(11,22\%\)
\(100\% - 110\%\) \(14,10\%\)
\(110\% - 120\%\) \(17,09\%\)

Comme on peut s’y attendre, les taux de remplissage proches de la moyenne de \(68\%\) contribuent peu à expliquer la dispersion. Celle-ci est à rechercher du côté des taux bas et surtout des taux élevés, ce qui est logique puisqu’il y a plus de rames de métro bondées que de rames presque vides.

 

Programmation avec R

Retrouvons ces taux avec un petit programme écrit en R. Nous partirons des centres de classes déjà déterminés. Niveau de difficulté : débutant (nous nous contenterons d’obtenir les contributions relatives, sans présentation dans un tableau ou un graphique).

# Données sous forme de vecteurs
remplissage <- c(10, 30, 45, 55, 65, 75, 85, 95, 105, 115)
effectif <- c(1, 3, 11, 21, 35, 24, 12, 6, 4, 3)

# Calcul des fréquences
freq <- c(effectif/sum(effectif))

# Calcul de la moyenne pondérée
moy <- sum(remplissage * freq)

# Ecarts à la moyenne puis carrés
ecarts <- remplissage - moy
ecarts_carre <- ecarts * ecarts

# Contributions absolues puis variance
absolues <- ecarts_carre * freq
variance <- sum(absolues)

# Contributions relatives en pourcentages
relatives <- (absolues/variance)*100
relatives

Affichage (qui risque d’être un peu bancal si vous le lisez sur un téléphone mobile) :

[1]  8.7887119 11.3518486 15.3354547  9.4568794  0.9116951
[6]  2.9110746  8.8327994 11.2221837 14.0967472 17.0926054

 

interrogation