Statistiques descriptives sur un seul caractère
Le B.A-BA des statistiques descriptives ou comment transformer un étal de données en information digeste. Nous étudions une population, c’est-à-dire un ensemble dont les éléments sont des individus (humains, animaux, plantes, objets ou... concepts). En entreprise, les statistiques descriptives sont très utilisées à la DRH. Souvent, elles constituent la première partie d'une étude, celle qui dresse l'état des lieux et qui se poursuivra par des analyses ou des prévisions. Sur cette population, nous nous intéressons à une variable statistique, ou à plusieurs mais sans nous préoccuper des interactions des unes sur les autres. Une distribution sur un caractère peut être résumée de deux façons complémentaires, l’une graphique et l’autre chiffrée. Les représentations graphiques Certaines règles méritent d’être respectées, à moins de se complaire dans un travail d’amateur… La première de ces règles stipule que ce sont les données qui déterminent le graphique qui les représente et non le chargé d’études, quelle que soit la sensibilité artistique de ce dernier… Pour illustrer la distribution d'une variable qualitative sans hiérarchie entre les modalités, la représentation habituelle est celle d’un diagramme circulaire ou en secteurs ou, pour parler plus communément du moins en France, un camembert. Si vous souhaitez mettre en valeur une part de celui-ci, votre logiciel vous permet en principe de la détacher. Exemple d’un diagramme réalisé sous Excel et faisant ressortir le poids de la direction commerciale dans l’effectif d’une entreprise :
Un tableur ou un logiciel graphique propose toujours des aménagements (avec les valeurs, des pourcentages, en 3D…). On adapte le diagramme à ce qu’on cherche à montrer. La 3D est souvent réservée aux présentations collectives qui incluent un public moins réceptif que les décideurs (mais vous pouvez très bien ne pas être d’accord avec moi). Voir exemple en page tableau de bord de la masse salariale. Ces diagrammes ne sont pas conçus pour montrer une évolution ou une comparaison. Si l’on souhaite malgré tout visualiser une différence entre deux découpages, on a le choix entre deux diagrammes en secteurs côte à côte ou, si l’on manque de place, d’un diagramme en anneau :
Si une hiérarchie peut être admise, on préférera un diagramme en bâtons (nombre d’enfants, de pièces défectueuses, niveau hiérarchique…). Les bâtons sont souvent verticaux. Lorsqu’ils sont horizontaux, ils sont dénommés « diagrammes en barres » par Excel. On peut colorer différemment le ou les bâtons qu’on souhaite mettre en exergue. Notez bien qu'une présentation en camembert peut toujours être transformée en bâtons. Les variables continues sont quant à elles représentées par des histogrammes lorsqu’elles sont regroupées par classes, voire par des fonctions en escaliers. Ce dernier type de graphe, peu fréquent en entreprise, sert surtout à montrer les répartitions en pourcentages (tri à plat). Des proportions ou des effectifs cumulés sont visualisés sur une courbe cumulative. Exemple :
Autres exemples en page courbe ABC, ACP des rangs, etc. Les cumuls inversés sont certes enseignés dès la classe de seconde, mais ils sont d’un emploi si rare qu’on se passera de leur présentation… L’exemple ci-dessus montre une distribution groupée. Il est en effet souvent plus pratique de grouper des modalités en classes pour être présentées graphiquement, en particulier lorsque ces modalités se rapportent à de faibles effectifs. La « queue de distribution » qui peut inclure des valeurs aberrantes est ramassée en une classe « 12 et + ». Notez aussi sur le diagramme en secteurs vu plus haut le groupement « autres directions du siège » qui évite un découpage trop fin. Enfin, on ne considérera pas une série chronologique comme une « distribution ». Les indicateurs Assez nombreux, les indicateurs descriptifs font l’objet de plusieurs pages sur ce site. On les regroupe ainsi : Les indicateurs de « tendance centrale » : derrière cette curieuse expression se cachent la moyenne arithmétique, la médiane et le mode. Des moyennes non arithmétiques décrivent elles aussi certaines situations bien particulières. Notez que la médiane s'évalue facilement sur une courbe cumulative : c'est l'abscisse du point dont l'ordonnée est 0,5. Les indicateurs de dispersion : variance, écart-type, écart absolu moyen, étendue… Les indicateurs de forme : asymétrie et aplatissement. Les indicateurs de position : quantiles (quartiles, déciles, centiles…). Mais l’étendue interquartile (entre le premier et le troisième quartile) est un indicateur de dispersion. Un indicateur de concentration : l'indice de Gini. Les boîtes à moustaches : ce sont des hybrides entre des graphiques et des indicateurs qui résument une distribution. Si l'on ne considère plus la distribution d'une variable statistique mais celle des probabilités que cette variable admet pour chaque valeur ou modalité, on parle alors de loi de probabilités.
|






