Robustesse en statistiques
Dans le domaine des statistiques inférentielles, la robustesse est un concept récurrent. L’objet de cette page n’est pas d’expliquer comment faire subir des crash-tests à nos pauvres statistiques (bien que les banques soient astreintes au stress testing de leurs modèles de risque). Plus modestement, je me contente ici d’énoncer quelques principes de bon sens, à appliquer avant de se lancer tête baissée dans une étude. La robustesse est la capacité à généraliser les conclusions d'une analyse statistique. Cette notion va au-delà de celle de VALIDITÉ d'un résultat (les statistiques descriptives exigent des résultats valides mais la question de robustesse ne se pose pas). Quelques robustesses… Un test est robuste s’il reste valable alors que les hypothèses d’application ne sont pas toutes réunies. Ce peut être une taille d'échantillon un peu faible ou une loi de probabilité (loi normale pour les tests paramétriques) qui n'est pas très bien vérifiée. Un indicateur est robuste s’il est peu sensible à la présence d’outliers (le coefficient de corrélation, par exemple, n’est pas très robuste). Plus généralement, un modèle est robuste lorsqu’il permet un prolongement des résultats (dans le temps ou pour une population). La robustesse s’applique aussi bien à une régression multiple qu’à une grille de score. L’emploi du terme « modèle » est d’ailleurs restrictif : les cogitations d’un réseau de neurones (qu'on ne peut pas considérer comme un modèle) sont elles aussi plus ou moins robustes. Par conséquent, à moins d’être uniquement descriptives, vos études devront respecter quelques règles pour que leurs conclusions soient généralisables. Les données Première condition d’une bonne robustesse, les données. Intuitivement, chacun sait qu’on ne transforme pas un cas en généralité (ce qui ne relèverait pas des statistiques mais des discussions de comptoir). Une quantité suffisante de données permet de bâtir des modèles fiables et solides. A titre d’exemple, des prévisions établies à partir d’une série chronologique montrant une saisonnalité nécessitent au moins trois ou quatre ans d’historique. La quantité ne suffit pas, il faut la qualité. Mieux vaut s’abstenir que réaliser une étude sur des informations non fiables qui peuvent conduire à des décisions coûteuses. Par ailleurs, il convient d’éliminer ou d’imputer certaines observations (voir outliers). Si ce n’est pas possible, on se tourne vers des méthodes adaptées, par exemple celles qui utilisent la médiane plutôt que la moyenne. Personnellement, j’aime beaucoup travailler le bois. Le parallèle entre un statisticien et un ébéniste est tout naturel : si la matière première ne présente pas une qualité suffisante (bois abîmé ou données peu fiables), la question à se poser est : « peut-on en tirer quelque chose pour, malgré tout, réaliser un travail de qualité ? » La collecte et le traitement des données s'inscrivent donc dans une exigence de FIDÉLITÉ, c'est-à-dire d'objectivité, de recherche de justesse des informations, du codage le plus pertinent, etc. Cette fidélité échappe en partie au statisticien. Supposons que, pour réaliser une étude de marché, des répondants goûtent un produit afin d'en évaluer les caractéristiques. Certains d'entre eux sont peut-être trop fatigués pour se concentrer sur le produit, d'autres ont la tête ailleurs... Bref, un test suffisamment robuste devra pallier diverses entorses souvent involontaires à la fidélité. Cette robustesse peut passer par plusieurs échantillons choisis dans des lieux et à des moments différents, et par une taille d'échantillon globale suffisamment importante pour que, théoriquement, des erreurs de mesure dans un sens se compensent par d'autres erreurs dans l'autre sens. Le traitement statistique L’amie de la robustesse est la concision. C’est à vouloir ajouter trop de variables, à faire tourner trop longtemps un réseau de neurones ou à retenir trop de clusters d'une classification qu’on perd en robustesse. Même chose pour un cerveau humain : savoir généraliser est plus utile qu’apprendre par cœur. Les modèles statistiques étant les auxiliaires du cerveau du manager, sachez doser variables et données pour que vos conclusions ne se traduisent pas par des décisions hasardeuses… N’oublions pas un autre critère, à savoir le choix de l’architecture du modèle. Trop sophistiqué, il conduit au surparamétrage. A titre d’exemple, une régression polynomiale qui cherche à trop bien résumer les observations utilisera un degré de polynôme trop élevé. Explication. Un des aspects de la robustesse est connu sous le nom de « compromis biais-variance ». Si le nombre de paramètres est trop faible, le modèle est « biaisé » (régression simple quand on dispose d’informations utiles à une régression multiple, par exemple) et on se trouve dans une situation de sous-paramétrage. Mais à l’inverse, dans la mesure où les paramètres sont des variables aléatoires, sensibles à l’échantillonnage, l’accroissement de leur nombre entraîne mécaniquement une augmentation de la variance. Outre le nombre de paramètres, il faut bien voir qu'un modèle trop sophistiqué risque de ne pas tenir la route très longtemps. Sur les données ci-dessous, quel modèle a-t-il le plus de chances d’être robuste ? La régression linéaire avec son malheureux R² à 0,6 (en rouge) ou la régression polynomiale de degré 3 (en vert) avec son R² de 0,8 ?
Certains outils permettent de déterminer un optimum (R² ajusté). Souvent, les algorithmes des logiciels ou tout simplement vos yeux et votre bon sens vous aident à faire le bon choix (niveau de coupure d’une CAH). Sur ce site, les conditions de robustesse sont données pour chaque technique, lorsqu’elles ont des raisons de l’être.
|




