Tendance et désaisonnalisation sur moyennes annuelles
Il n'est pas difficile d'établir l'expression d'une droite de régression linéaire du temps pour estimer la tendance d’une série chronologique. Avec un tableur, ça ne vous prend que quelques secondes. Mais prudence, le terrain est miné...
Le piège
Si l’on dispose de plusieurs données par an (mensuelles ou trimestrielles, par exemple), c’est une erreur d’utiliser toutes les données brutes. Il convient d’utiliser les seules moyennes annuelles (sauf bien sûr si l'on fait notre régression sur une série déjà lissée par moyennes mobiles).
Pourquoi ? Parce que sinon, la droite de régression résumera non seulement la tendance, mais aussi la saisonnalité que l’on cherche précisément à isoler…
Exemple
Reprenons l’exemple (certes un peu baroque) des ventes de doses de poison pendant onze années du douzième siècle, déjà utilisé pour expliquer la désaisonnalisation. Les données figurent dans le tableau de Buys-Ballot ci-dessous :
Doses | 1 | 2 | 3 | 4 |
1120 | 38 | 60 | 116 | 73 |
1121 | 41 | 62,5 | 113,5 | 72,5 |
1122 | 42,3 | 68,5 | 112 | 79 |
1123 | 46 | 64 | 117 | 74,5 |
1124 | 50 | 65,5 | 119 | 81 |
1125 | 48 | 68 | 124,5 | 76,5 |
1126 | 54,5 | 75 | 123 | 83 |
1127 | 57 | 70 | 128,5 | 86,5 |
1128 | 52 | 79,5 | 129 | 85,5 |
1129 | 58,5 | 75 | 125 | 88,5 |
1130 | 62,5 | 84,5 | 129,5 | 93,5 |
Le graphique correspondant est le suivant :
Excel a calculé les paramètres de la droite de régression linéaire. Si l’on considère le 1er trimestre de l’an de grâce 1120 comme étant la valeur 1, l’équation de la droite de régression est égale à \(y\) \(=\) \(0,607t + 67,08.\) Comme vous l’avez deviné, \(t\) est le numéro du trimestre (1 à 44).
Mais cette régression pose deux problèmes. D’abord, le coefficient de corrélation risque de ne pas vouloir dire grand-chose car les variations saisonnières sont importantes, ce qui implique une forte variance résiduelle. Ensuite, la droite de régression va être un peu trop pentue car l’impact de la saisonnalité est négatif en début d’année et positif ensuite : si l’on calcule la régression sur une seule année, la droite est croissante. On ne veut pas de cet effet parasite pour établir notre tendance !
Intéressons-nous alors aux moyennes annuelles. Elles sont les suivantes :
Année | Moyenne |
1120 | 71,75 |
1121 | 72,375 |
1122 | 75,5 |
1123 | 75,375 |
1124 | 78,875 |
1125 | 79,25 |
1126 | 83,875 |
1127 | 85,5 |
1128 | 86,5 |
1129 | 86,75 |
1130 | 92,5 |
Sur ces valeurs, l’équation de la droite est, en arrondissant, \(y\) \(=\) \(68,78 + 2t’.\) Précisons que \(t’\) \(=\) numéro de l’année (1 à 11).
Nous allons maintenant procéder à une petite manipulation car nous estimons une variable de flux. On va donc considérer que les relevés ont lieu au milieu de chaque période. L’origine est située au 30 juin 1119 (milieu de l’année) et la valeur 1 correspond au 30 juin 1120. Au 1er janvier 1120, \(t’ = 0,5.\) Donc le milieu du premier trimestre correspond à \(0,5 + \frac{1}{8} = 0,625.\)
La première valeur de notre tableau désaisonnalisé sera donc \(68,78 + (0,625 × 2)\) \(=\) \(70\) pour le premier trimestre 1120. La pente de la droite de régression est fort logiquement égale à \(\frac{2}{4} = 0,5.\)
Avec un trend d'équation \(y = 0,5t + 70,\) on constate donc que la droite de régression est, comme prévu, moins pentue que lorsqu’elle était calculée sur toutes les valeurs trimestrielles ! Les coefficients saisonniers et les résidus seront eux aussi différents de ce qu’ils étaient avec la méthode « brutale ».
Avec tendance sur trimestres :
Avec tendance sur années :
On voit bien comment le pivotement de la droite supprime le biais qui existait sur les résidus. Seule l’année du milieu (1125) reste inchangée alors que les résidus sont très différents aux extrémités de la chronique.
Les coefficients saisonniers s’établissent quant à eux à -30,00 pour \(T1,\) -10,27 pour \(T2,\) 40,55 pour \(T3\) et -0,27 pour \(T4.\)