Détection d'outliers par l'intervalle de confiance

Intervalles de confiance et séries chronologiques

La situation est la suivante : nous souhaitons analyser une série chronologique pas nécessairement très longue et pour laquelle une ou plusieurs valeurs semblent tellement aberrantes que leur prise en compte risque de fausser nos prévisions.

Incertitude : sur quels critères catalogue-t-on une valeur extrême de série chronologique ?

Plusieurs logiciels contiennent des algorithmes de détection d’outliers mais on ne sait pas toujours comment ceux-ci sont décelés et, lorsque la technique est indiquée, ce n’est pas toujours celle que l’on aurait choisie. Par ailleurs, on peut être amené à programmer cette détection. D’où l’intérêt d’approfondir la question…

Nous ne verrons ici que l’une de ces techniques, sans doute la plus simple et la plus utilisée. Elle se fonde sur un critère de détermination assez rigoureux bien qu’un peu arbitraire. Un exemple permettra d'en mesurer les limites.

Principe

Cette technique suppose que les valeurs sont distribuées normalement.

Le principe est simple : on évacue les valeurs des queues de distribution. Si par exemple on choisit une probabilité d’erreur de \(5\%,\) toutes celles qui seront conservées se trouveront dans un intervalle de confiance de \(\pm 1,96\) écart-type sans biais autour de la moyenne.

L’étude commence donc par un test de normalité. La question est de savoir si l’on inclut les valeurs bizarres dans le test. Question ouverte. Dans l’exemple ci-dessous la série est courte et une seule observation pose problème, aussi cette dernière est-elle éliminée du test.

analyste

Exemple

Soit la fréquentation quotidienne d’un petit musée familial :

stats du musée

Souhaitant utiliser ces chiffres pour établir des prévisions (lissage exponentiel ou moyennes mobiles, par exemple), on se demande si le pic du jour 18 ne risque pas de les fausser. Considère-t-on sa valeur comme aberrante, auquel cas on l’éliminera ou on l’imputera ?

Étape préalable : assurons-nous de la normalité de la distribution. Cette vérification sera réalisée avec le logiciel gratuit Assistat 7.5 (logiciel brésilien en version anglaise).

L’utilisation d’Assistat est très simple bien que la version bêta employée ne soit pas très au point. Clic sur Statistical tests puis sur Normaly test. Ici, la valeur 24 est entrée puisque le test sera effectué sur la série privée de l’observation 18.

tableau 1ère partie

tableau 2ème partie

On voit qu’Assistat n’est pas avare en tests… On remarque aussi que la distribution est normale et qu’on peut poursuivre les opérations. Pour information, si la valeur extrême avait été introduite, les tests seraient partagés pour considérer la distribution comme normale ou non.

La moyenne s’établit à 31 et l’écart-type à 7,76209. L’intervalle dans lequel les valeurs sont acceptées est donc, pour un risque de \(5\%,\) \([16,99\,; 47,42].\) La valeur 61 ne se situant pas dans cette fourchette, l’observation 18 est considérée comme extrême.

Limites

Rappelons-le, cette technique suppose la normalité des valeurs. Cette condition est assez restrictive. Elle met de côté les chroniques aux saisonnalités trop fortes. Par ailleurs, il vaut mieux qu’aucune tendance ne se dégage. Si c’est le cas, on peut envisager de traiter les seuls résidus d’une régression linéaire simple mais cette dernière aura préalablement été établie avec les valeurs extrêmes, ce qui peut apparaître comme un vice de forme…

lutin