La désaisonnalisation sur régression linéaire

Désaisonnalisation sur régression avec schéma additif

Les ventes du mois sont-elles si bonnes que çà ? Tous ces appels de la hot line entre 17 et 18 heures s’expliquent-ils par l’heure de pointe ou par une clientèle paniquée ? Face à une série chronologique de données, notre mission consiste à ôter ces périodicités qui brouillent notre perception du phénomène… Notre arme : la désaisonnalisation.

On supposera que les mouvements périodiques sont rigides, alors que la réalité montre souvent plus de souplesse (dates de vacances ou de soldes différentes d'une année sur l'autre, par exemple).

La désaisonnalisation est réalisable par de nombreux logiciels. Vous choisissez la périodicité et ils s’occupent du reste, choisissant parfois même le schéma additif ou multiplicatif. Un travail sérieux nécessite toutefois une compréhension des principes.

 

Données

Pour cela, présentons une série (corrigée des jours ouvrables) sous forme d’un tableau de Buys-Ballot qui présente en colonnes l’unité de temps (ici les trimestres) et en lignes les années. Soit l’évolution trimestrielle des ventes de poison, entre les années 1120 et 1130, d’une entreprise de sorcellerie (en nombre de doses) :

Doses 1 2 3 4
1120 38 60 116 73
1121 41 62,5 113,5 72,5
1122 42,3 68,5 112 79
1123 46 64 117 74,5
1124 50 65,5 119 81
1125 48 68 124,5 76,5
1126 54,5 75 123 83
1127 57 70 128,5 86,5
1128 52 79,5 129 85,5
1129 58,5 75 125 88,5
1130 62,5 84,5 129,5 93,5

Le troisième trimestre est celui de la fructification de la belladone et de la cueillette de l’amanite phalloïde alors que le premier trimestre est peu propice aux prélèvements. Pour une technique statistique de détection, voir l' ANOVA sur série.

sorcière

 

Visualisation

doses

Le schéma est visiblement additif et aucune valeur aberrante ne milite en faveur d’une régression sur les médianes de type méthode de Theil (précisons qu’une absence de modification de structure sur onze ans relève aussi de la sorcellerie, quoique les activités économiques du douzième siècle étaient relativement stables. Aujourd'hui, il est déconseillé de dépasser quatre ans d’historique).

Bref. Le trend linéaire nous oriente vers une régression linéaire simple. Attention : pour simplifier l'exemple, nous avons procédé à une régression à partir de valeurs trimestrielles et non avec les moyennes annuelles comme il faudrait le faire. Cette erreur volontaire a aussi pour but la comparaison avec une régression sur moyennes annuelles en bonne et due forme (cliquez sur le lien pour constater la différence sur le même exemple).

 

Analyse

L’équation de tendance est \(y\) \(=\) \(0,607t + 67,08\) (aux arrondis près). Les valeurs figurent dans un deuxième tableau. Puis on note les différences dans un troisième.

Tableau Trend

Données - trend

La somme des cases est égale à 0, ce qui nous évite un retraitement, nécessaire lorsque la désaisonnalisation est réalisée sur moyennes mobiles ou par régression sur médianes annuelles. Les quatre moyennes obtenues sont les coefficients saisonniers. On les retire alors des données brutes, avec la tendance. Reste les résidus.

Tableau des résidus

Ils permettent une analyse des ventes : s’ils sont structurés, c’est qu’un élément n’a pas été pris en compte. Une régression multiple serait plus appropriée si on l'identifiait (par exemple, existence ou non d'une campagne promotionnelle).

Retirons des observations les seuls coefficients saisonniers. Et voici la série CVS !

Tableau CVS

Si l’on additionne les valeurs annuelles sur ce tableau et sur celui des observations, on obtient les mêmes montants. C’est le principe de conservation des aires (en vertu duquel la somme des coefficients aurait été égal à 4 avec un schéma multiplicatif).

Le principe de décomposition permet aussi une prévision des ventes. Ainsi, le premier trimestre 1131 (\(t = 45\) aura pour valeur de tendance \(67,08 + (45 × 0,607)\) \(=\) \(94,4.\) La composante saisonnière des premiers trimestres étant de -29,8, on prévoit 64,6 (voir exemple en page date du point mort, avec une régression sur tendance logarithmique). Si grâce aux résidus l'entreprise identifie des impacts exogènes (difficulté d’approvisionnement, recrudescence des complots…) ou qu’elle souhaite lancer un nouveau produit (plante rapportée des croisades), la prévision de 64,6 sera changée.

Voir aussi les résultats obtenus par un logiciel (en l’occurrence Statgraphics Centurion) à partir d’une tendance obtenue par MM avec un schéma multiplicatif.

 

demande au père Noël