Valeurs extrêmes des séries chronologiques
On sait que des valeurs extrêmes ou aberrantes peuvent tellement fausser les conclusions de nos calculs qu’une étude réalisée sur des données mal préparées n’est utile que pour emballer du poisson sur le marché (voir les outliers).
Une série chronologique n'est pas à l'abri de ces intrus et des techniques propres de détection sont employées. La qualité des prévisions dépendra largement du soin apporté à cette recherche et à la façon de traiter le problème (cette page ne traite que de la détection).
Problématique
Dans le domaine prévisionnel peut-être plus qu’ailleurs s’opposent le sur-mesure et le prêt-à-porter. Entendons par là qu’une prévision peut se fonder sur des traitements automatisés pour lesquels on suppose certaines hypothèses vérifiées, mais on peut aussi élaborer des modèles ad hoc très sophistiqués, le fin du fin étant les modèles économétriques. Il est évident que l’on prodigue davantage de soins aux prévisions de fréquentation d’un grand magasin qu'à celles qui déclenchent la commande d’un article du groupe C.
Il en est de même du traitement des outliers. Nous passerons donc en revue quatre techniques automatisables puis une méthode nécessitant un jugement (avant d’évoquer rapidement la méthode Census X-11). Dans la mesure où il s’agit d’un traitement amont, on considérera fort logiquement qu’aucune désaisonnalisation n’a été réalisée (du moins pour les quatre premières techniques). En revanche, une correction préalable des jours ouvrés n’est pas contre-indiquée puisqu’elle ne dépend pas des valeurs prises par les observations…
L’intervalle de confiance
Il s’agit d’une technique simple, non réservée aux séries chronologiques. On établit un intervalle de confiance autour de la moyenne d'une série en fonction du niveau de confiance qu’on s'est fixé. Les valeurs extrêmes sont celles qui se situent en dehors.
L'amplitude de l’intervalle est déterminé par la loi normale. Par exemple, acceptant un risque d'erreur de \(5\%,\) on considère comme extrêmes les valeurs qui se trouvent au-delà de \(\pm 1,96\) écart-type de part et d'autre de la moyenne.
Et là, les critiques pleuvent car si la tendance ou la saisonnalité sont importantes, le remède risque d’être pire que le mal. Par ailleurs, sur une longue série, des valeurs seront éliminées même si elles ne sont pas si anormales que cela.
Une autre limite à cette technique est que l’on suppose la normalité des valeurs observées, ce qui ne va pas du tout de soi (voir l’effet que peuvent avoir les mois d’août en page de désaisonnalisation sur moyennes mobiles).
Un exemple illustre la page consacrée à la détection d'outliers par intervalle de confiance.
Le test de moyenne
Un test au service des séries chronologiques : n’est-il pas merveilleux d’abolir ainsi les frontières entre différents domaines des statistiques ?
L’astuce consiste à procéder à un test fondé sur le \(t\) de Fisher (si la série a moins de 30 observations) ou à un test \(z\). Il s’agit d'un test bilatéral de conformité d’une moyenne à une norme, cette « norme » étant soit chaque valeur prise une par une (et il y a autant de tests que de valeurs), soit les seules valeurs désignées comme suspectes par la technique précédente.
Le test de comparaison de moyennes est aussi employé, l'un des deux échantillons étant constitué d'une seule observation (voir ouvrages de R. Bourbonnais présentés en marge). Mais ce test devient assez approximatif, l'une des deux variances étant nulle. Et de toute façon, les logiciels détestent les échantillons contenant une seule valeur..
On n’établit donc plus d’intervalle autour de la moyenne de la chronique mais de la série moins une valeur.
Sous l’hypothèse H0, il y a égalité et sous H1, on considère la valeur comme extrême.
On peut trouver cette technique beaucoup trop sévère. Il ne s'agit plus de vérifier qu'une valeur peut appartenir à un intervalle, mais qu'elle est proche de la moyenne. Ceci conduit à placer la plupart des observations sur un siège éjectable.
Le double intervalle de confiance
Voici une technique un peu plus fine car elle s’effectue à partir d’un tableau de Buys-Ballot. L’intervalle est calculé en ligne (années) et en colonne (mois ou trimestres). Une valeur n’est douteuse que si elle sort simultanément des deux intervalles. Ainsi, on n’est piégé ni par les saisonnalités marquées ni par les fortes tendances.
Le double test de moyenne
Même principe mais en réalisant des tests de moyenne par année et par « saison ». Ceci permet d’utiliser le t de Student. Lorsqu’on travaille sur un tableau de Buys-Ballot, le nombre de lignes et le nombre de colonnes sont évidemment inférieurs à 30 et un intervalle fondé sur la loi normale est trop « sévère ».
Les quatre techniques que évoquées ci-dessus, de la plus simple à la plus aboutie, peuvent être automatisées non seulement pour la détection des valeurs extrêmes mais aussi pour leur imputation, par exemple par les bornes de l’intervalle. Toutefois, elles supposent toutes la normalité des valeurs observées. Certes, les tests de normalité sont eux-aussi paramétrables mais en cas de non-normalité, que prévoit l’algorithme ?
La régression
Cette méthode nécessite en principe un jugement humain, même si une automatisation reste possible. Elle consiste à effectuer une régression linéaire multiple (précisons que c’est le modèle qui est linéaire, la variable à expliquer pouvant très bien être le logarithme des valeurs observées, par exemple) et à tester les valeurs qui s’en éloignent. Comment ?
Il faut ajouter à ce qui est au départ une situation de régression linéaire simple (dont la variable explicative est la mesure du temps) une deuxième variable explicative, dichotomique, prenant la valeur 1 pour l’observation douteuse et 0 partout ailleurs. Le test du \(t,\) restitué par tous les logiciels calculant les régressions multiples, permet de savoir si le coefficient de régression appliqué à cette variable est significatif ou non.
Il s’agit de la moins mauvaise méthode. Néanmoins, elle reste théoriquement très discutable, surtout s’il existe plusieurs points aberrants. Elle n’a de sens que sur une série désaisonnalisée, mais la désaisonnalisation elle-même a préalablement été faussée par ce ou ces points étranges.
Par ailleurs, si l’imputation est effectuée avec la valeur prédite par la régression, on perd davantage d’information qu’avec une imputation réalisée par borne d’intervalle de confiance.
Les moyennes mobiles
Pour terminer, mentionnons la technique du Census X-11 : les valeurs extrêmes sont détectées sur des rapports entre données mensuelles et moyennes mobiles centrées sur 12 mois, ces rapports étant ensuite lissés (Méthodes de prévision à court terme, G. Mélard, Ellipses 2007 p. 131).