Les diagrammes en boîte

Quartiles et diagrammes en boîte

Les diagrammes en boîte, ou diagrammes de Tukey, encore nommés boîtes à moustaches, étaient enseignés au lycée mais ne sont plus mentionnés dans les programmes de seconde. En revanche, la notion de quartile doit être connue. Le texte ci-dessous a été rédigé pour les lycéens car les diagrammes utilisés dans la vie active présentent généralement un peu plus d’informations (étudiants et professionnels, la page qui traite des quantiles vous est destinée mais vous pouvez tout à fait vous initier ici-même).

Mais d'abord, intéressons-nous aux quartiles...

 

Les quartiles

Soit une série statistique triée de façon croissante. La population peut être partagée en quatre sous-populations de même effectif. Les valeurs qui correspondent aux limites du partage sont des quartiles. Le deuxième quartile n’est autre que la médiane. Ce sont donc des valeurs associées à des « frontières » et non à des ensembles d’individus. Par exemple, si l’on classe une population de sept souris par ordre de poids (en grammes) et que l’on obtient \(\{20\,;\) \(21\,;\) \(23\,;\) \(24\,;\) \(25\,;\) \(25\,;\) \(26\},\) la médiane est 24. C’est la valeur du milieu. Comme \(\frac{7}{4} = 1,75,\) le premier quartile, noté \(Q1,\) correspond au deuxième individu. C’est donc 21. De même, \(Q3 = 25.\)

souris

Il existe un léger problème lorsque le quartile tombe entre deux valeurs observées. Selon une définition qui se veut simplifiée, les programmes de lycée tels qu’ils sont élaborés en France donnent une définition un peu différente de celle des quartiles employés dans la vie professionnelle (et donc par les logiciels). Quelle est-elle ? Le premier quartile est la plus petite valeur de la série d’effectif \(N\) telle qu’au moins \(25\%\) des valeurs lui soient inférieures ou égales et le troisième quartile est la plus petite valeur telle qu’au moins \(75\%\) des données lui soient inférieures ou égales. En clair, on ne fait pas la moyenne des deux valeurs qui l’encadrent comme on le fait pour la médiane lorsque l'effectif est pair mais on cherche les valeurs de rangs \(\frac{N}{4}\) et \(\frac{3N}{4}\) ; si ça ne tombe pas pile sur un entier, on retient l’entier supérieur. Donc, \(Q1\) et \(Q3\) sont de vraies valeurs de la série, ce qui n’est pas toujours le cas de la médiane et encore moins de la moyenne.

Supposons que l’on ajoute une souris de 27 g à notre population. Alors \(Q1 = 21,\) \(\rm{Me} = 24,5\) et \(Q3 = 25.\)

Notez bien que tout ceci s’applique aux séries discrètes. Lorsqu'une série est continue, soit on retient une classe de valeurs, soit on estime les valeurs de quartiles par interpolation (voir les séries statistiques continues).

L’intervalle interquartile est l’intervalle \([Q1\,; Q3].\) Il contient au moins la moitié des valeurs de la série. À ne pas confondre avec l’écart interquartile qui est un nombre (soit \(Q3 - Q1\)).

Ces différentes grandeurs (médiane, quartiles, écart et intervalle interquartiles) ne sont pas impactées par d’éventuelles valeurs extrêmes comme peuvent l’être la moyenne ou l’étendue.

 

Représentation graphique

S’il existe un domaine où les représentations graphiques sont reines, ce sont bien les statistiques. On n’a rien fait de mieux pour présenter de façon synthétique une quantité parfois très volumineuse de données. Les quartiles sont illustrés par des diagrammes en boîte. Ces instruments étranges ne sont pas difficiles à réaliser mais il faut quand même une certaine habitude pour savoir les interpréter rapidement.

diagramme en boîte

Grosso modo, plus la boîte est petite avec de grandes pattes autour, plus il y a d’observations proches de la médiane.

Notez qu'une boîte à moustaches isolée n'a pas grand intérêt. L'utilité de cet outil est de croiser une variable quantitative continue avec une qualitative, ce qui revient à comparer plusieurs boîtes. Par exemple, si l'on étudie la taille des surfaces agricoles dans quatre pays, on compare quatre diagrammes en boîte.

La hauteur du rectangle n’a généralement aucune importance. Toutefois, lorsque vous comparez plusieurs populations, vous pouvez adopter des hauteurs proportionnelles aux effectifs.

 

Exemple

Lire sur la figure ci-dessous le premier quartile, la médiane, le troisième quartile, l’étendue et l’écart interquartile. Donner l’intervalle interquartile.

exemple de boîte

Réponse : \(Q1 = 8,\) médiane \(= 11,\) \(Q3 = 15.\) L’étendue est de \(15 - 7 = 8.\) L’écart interquartile est égal à la différence entre \(Q3\) et \(Q1,\) soit \(15 - 8 = 7.\) L’intervalle interquartile est \([8\,;15].\)

Dans cet exemple, le troisième quartile a la même valeur que la valeur maximale. Il n’y a donc pas de patte à droite. Si c’est la médiane qui a la même valeur que \(Q1\) ou \(Q3,\) il faut l’indiquer d’une façon ou d’une autre (trait épais, en couleur…) pour distinguer avec quel quartile elle se confond (voir l'exercice sur série statistiques discrète).

 

Exercice

Série 1 : \(\{2\,;\) \(4\,;\) \(5\,;\) \(5\,;\) \(6,5\,;\) \(7\,;\) \(8,5\,;\) \(9\}\)

Série 2 : \(\{2\,;\) \(5\,;\) \(5\,;\) \(5,5\,;\) \(6\,;\) \(6\,;\) \(6,5\,;\) \(7\,;\) \(7\,;\) \(9\}\)

Présenter les deux diagrammes et commenter.

 

Corrigé

La série 1 comporte 8 observations. La médiane est donc le milieu des valeurs de la série dont les rangs sont \(\frac{n}{2}\) et \(\frac{n + 1}{2},\) en l’occurrence la quatrième et la cinquième. On obtient 5,75. \(Q1\) correspond au rang \(\frac{8}{4}\) soit n°2. La deuxième valeur est 4. Donc \(Q1 = 4.\) Enfin, \(Q3 = 7\) (la sixième valeur).

10 observations composent la seconde série. La médiane se situe donc entre la cinquième et la sixième valeur. Ce qui tombe bien puisque ce sont deux 6. \(Q1\) correspond au rang \(\frac{10}{4}\) donc 2,5, c’est-à-dire le troisième rang. Soit la valeur 5. \(Q3\) correspond au rang \(10 × \frac{3}{4}\) soit 7,5, donc la huitième valeur qui est 7.

2 séries

Nous constatons que la seconde série est moins dispersée. Il y a davantage de valeurs proches de la médiane.

Il est possible de tracer ces diagrammes avec une calculatrice graphique. Dans la mesure où les définitions des quartiles sont différentes des programmes du lycée, nous ne vous conseillons pas de vous y fier, surtout sur de petites séries comme celles-ci. Ci-dessous, la différence est flagrante, en particulier sur la première série..

diagrammes en boîte

 

diagramme en boîte