Les quantiles

Quantiles, étendue et boîte à moustaches

Les notions de quartile et d'étendue, jadis enseignées après le bac, font désormais partie du programme de la classe de seconde après une introduction dès la troisième. Les quartiles sont des indicateurs de position et l'étendue un indicateur de dispersion. Survolons ici quelques-uns de ces symboles du triomphe des statistiques, discipline qui s'impose de plus en plus dans la culture générale (ce qui ne va pas sans poser quelques problèmes, comme on va le voir).

 

Quantiles

Observons une variable statistique quantitative sur une population de taille \(N.\)

Nous trions d'abord ses \(N\) valeurs afin d'obtenir une distribution à une variable, ordonnée de façon croissante. Les quantiles (ou fractiles) d’ordre \(k\) partagent alors l’échantillon en \(k\) sous-ensembles égaux. Ils sont appelés centiles (ou percentiles) si \(k = 100,\) déciles si \(k = 10\) et quartiles si \(k = 4.\) Ils sont respectivement abrégés par \(C,\) \(D\) et \(Q.\)

Entendons-nous bien, ce qui nous intéresse n'est pas le numéro de l'observation mais la valeur prise par cette dernière ! Si \(k = 2,\) l’unique quantile est par définition la médiane (donc, médiane \(=\) \(Q2\) \(=\) \(D5\) \(=\) \(C50\). Si \(k = 4,\) le premier quartile est la valeur prise par l'observation numéro \(\frac{N}{4}.\)

Lorsqu’un quantile se situe entre deux valeurs observées, il existe plusieurs possibilités. Celle qui est enseignée au lycée consiste à retenir, par exemple pour \(Q1,\) la plus petite valeur pour laquelle au moins \(25\%\) des données sont inférieures ou égales. On relève donc l'observation du rang \(\frac{N}{4}\) éventuellement arrondi à l'entier supérieur (voir page exercice sur série discrète). Mais on peut aussi calculer une moyenne pondérée si l'on considère que la variable est continue. Les logiciels de statistiques intègrent d'ailleurs différentes possibilités (six pour XLSTAT, logiciel utilisé dans l'exemple qui suit).

Notez que si la question de pondération ne se pose pas pour une médiane, c'est parce que celle-ci se trouve au milieu des deux valeurs centrales d'une série paire ; il n'en est pas de même pour les autres quantiles qui peuvent tomber plus ou moins près de l'une des valeurs qui les encadrent.

Prenons l'exemple de dix valeurs ordonnées : 2, 4, 5, 6, 8, 9, 12, 15, 16, 18 et regardons quelques résultats fournis par XLSTAT (originellement présenté sur plusieurs états). La première colonne correspond à l'option « fonction de répartition empirique ». La deuxième utilise l'option « observation la plus proche... » et semble inadaptée sur cet exemple. La troisième option est « fonction de répartition empirique avec remplacement par la moyenne ». Les chiffres obtenus sont les mêmes qu'avec une calculatrice utilisée au lycée. La dernière colonne indique les valeurs pondérées. Ce sont ces dernières qui correspondent aux fonctions QUARTILE et CENTILE d'Excel.

options de quantiles

On remarque que, si l'on se fie à la définition des programmes de l'enseignement secondaire, la médiane n'a pas tout à fait la même définition que les autres quartiles...

Si les observations sont pondérées, il va de soi que le découpage est pratiqué sur la pondération totale et non sur l'effectif...

Autres définitions : l'intervalle \(]Q1\,; Q3[\) est l'intervalle interquartile, le nombre \(Q3 - Q1\) est l'écart interquartile et le nombre \(\frac{Q3 - Q1}{Q2}\) est l'écart interquartile relatif.

Le minimum et le maximum d’une série sont fréquemment fournis par les statistiques descriptives des logiciels. L’écart entre ces deux valeurs se nomme l’étendue, l'intervalle de variation ou l'empan. Surtout utile pour faire dire n'importe quoi aux statistiques.

Un centilage exige un effectif important (peu d’intérêt s'il est inférieur à 100) et des valeurs suffisamment variées pour éviter d’obtenir des centiles identiques, en particulier si l'on opte pour une version qui conserve des valeurs discrètes. Un décilage est bien sûr dix fois moins exigeant.

Le centilage est utile en préparation de données. Lorsqu’on utilise des méthodes peu robustes aux valeurs extrêmes, comme les régressions ou les analyses factorielles, les observations correspondant aux centiles extrêmes peuvent être retirées ou transformées pour éviter qu’elles ne faussent l’analyse. L’imputation des valeurs situées au-delà d’un certain quantile par la valeur du quantile lui-même s’appelle la winsorisation. Il s’agit généralement du premier et du dernier centile.

 

Diagrammes en boîtes

On a l’habitude de représenter les quartiles sous forme de « boîtes à moustaches » (box plots) ou diagrammes en boîtes.

boîte

La lecture de tableaux de quantiles ou de diagrammes en boîte apporte un éclairage intéressant sur la symétrie d'une distribution et sur sa dispersion par rapport à la médiane mais requiert une certaine habitude d'analyse. Les diagrammes permettent des comparaisons rapides entre plusieurs distributions.

Prenons l’exemple d’une série chronologique, dont la dernière valeur est aberrante :

2, 4, 6, 7, 9, 14, 16, 19, 22, 33, 35, 55, 76, 77, 90, 99, 111, 121, 133, 141, 170, 186, 200, 220, 221, 500.

La boîte à moustaches (franchement, un nom pareil…), telle qu’elle est restituée par Statgraphics Centurion, apparaît ainsi :

diagramme de Tukey

Le peu visible point rouge (la moyenne) est situé à droite de la ligne verticale (médiane). Cette moyenne est tirée vers le haut en raison d’une valeur aberrante représentée en dehors des moustaches. La « boîte » correspond à l’écart interquartile. Les limites des moustaches correspondent généralement aux premier et neuvième déciles mais d'autres conventions sont possibles, notamment celle de choisir les valeurs extrêmes. Est considérée comme extrême une valeur supérieure à 1,5 fois l’écart inter-quartile. La boîte est parfois présentée avec une encoche autour de la médiane. Il s’agit de l'intervalle de confiance au seuil de \(5\%\) qui permet de visualiser, sur deux boîtes l’une en-dessous de l’autre, si les deux médianes peuvent être considérées comme identiques.

Ce type de diagramme résume une distribution univariée mais une analyse bivariée peut utilement employer cet outil. Si l'on dessine un nuage de points, par exemple dans le cadre d'une régression simple, il peut être instructif d'ajouter en dehors du cadre des abscisses et des ordonnées les deux boîtes à moustaches synthétisant la distribution des deux caractères observés de l'échantillon.

 

monstres