Profondeur de Tukey
John W. Tukey, célèbre scientifique du vingtième siècle, a inventé plusieurs outils statistiques parmi lesquels le diagramme en boîte, le diagramme branche et feuille ou encore la profondeur d’une observation.
La notion de profondeur
Précisons-le tout de suite, la profondeur n’est pas un incontournable des manuels et des logiciels.
Avant d’en détailler les modalités de calcul, dévoilons-en le principe : plus une observation est proche de la médiane, plus elle est « profonde ».
Pour situer une unité statistique par rapport à la population à laquelle elle appartient, on peut utiliser des techniques classiques comme l’appartenance à tel quantile, mesurer l’écart par rapport à la moyenne (soit en pourcentage soit en nombre d’écarts-types) mais aussi se servir d’une notion beaucoup moins utilisée, la profondeur.
Cette notion est donc liée à une observation en particulier quoique, nous le verrons, des utilisations existent aussi au niveau de la série statistique.
Technique
Lorsqu’on trie les valeurs observées par ordre croissant, on obtient un rang. Par ordre décroissant, on obtient un autre rang. La profondeur d’une observation est le plus petit des deux.
Si le nombre d’observations est pair, deux valeurs ont la profondeur maximale. Si ce nombre est impair, il n’y en a qu’une et c’est la médiane.
Sur une population importante, la profondeur est donc plus précise qu’une position dans un décile, voire un centile.
Un avantage de cet outil est qu’il est « robuste » : il s’applique tout à fait à de petits échantillons ou à des distributions non normales.
D’autres auteurs que Tukey ont proposé des techniques voisines, qui ne seront pas exposées ici. Mentionnons pour mémoire la profondeur simpliciale de Liu.
Exemple
Dans le tableau ci-dessous sont relevés les salaires de dix-sept individus. Avec Excel, ceux-ci ont été triés par ordre croissant, ce qui permet de leur affecter un rang. Ce rang est inversé dans la colonne suivante. La dernière colonne utilise la fonction MIN (minimum des deux colonnes précédentes). Il n’y a aucune difficulté à automatiser la détermination de la profondeur de chaque observation avec un tableur.
L’individu médian est M. Chat. La profondeur de sa valeur est 9.
Utilisations
On peut comparer plusieurs individus grâce à la profondeur de leur valeur mais aussi suivre leur évolution dans le temps.
Un découpage de la population par tranches de profondeur s’apparente à un décilage mais il est plus souple puisque l’analyste choisit lui-même les modalités du découpage.
Par ailleurs, il est fréquent que dans une série statistique des valeurs aberrantes impactent certains paramètres, par exemple la moyenne, à tel point que ces paramètres sont parfois peu significatifs. Une élimination des outliers peut être conduite en s’appuyant sur la notion de profondeur. Ce peut faire l’objet d’un traitement automatique, qui trouve son utilité sur des populations importantes.
Séries multivariées
Aucune technique ne s’est malheureusement imposée pour définir une profondeur à partir de plusieurs caractères, ce qui aurait donné à cette notion un attrait certain auprès des statisticiens.