Exemple de calcul matriciel pour régression multiple
Voici une page qui devrait davantage intéresser les étudiants que les statisticiens d’entreprise. Il faudrait vraiment que ces derniers soient démunis pour se lancer dans un calcul manuel de régression linéaire multiple ! Et encore, l’aide d’Excel qui va ici nous secourir n’a rien de manuel… Mais vous êtes certainement curieux de connaître les mécanismes qui se cachent derrière les états des logiciels, n’est-ce pas ? Illustrons. Nous connaissons dix entreprises de location de véhicules pour lesquelles nous tentons de prédire un chiffre d’affaires à partir de deux critères que sont l’effectif de l’entreprise et son nombre de véhicules (flotte).
Notre objectif est de prédire une variable aléatoire y (le C.A) à partir d’une variable x1 connue (l’effectif) et d’une variable x2 connue (la flotte). Le squelette du modèle apparaît ainsi :
Le travail du statisticien est de trouver les meilleurs paramètres â1 et â2 ainsi qu'un estimateur de la constante b. Si l’on se donne x1 (l’effectif) et x2 (la flotte), on déduira, si tout se passe bien, un chiffre d’affaires convenablement exact… Transformons le tableau en deux matrices. La première est constituée des valeurs des deux variables explicatives ainsi que d’une colonne de 1 qui permettra l’existence de l’intercept b. La seconde est celle des yi, valeurs prises par la variable à expliquer. Le calcul matriciel est effectué avec l’add-in gratuit d’Excel Matrix (pour se le procurer, voir page opérations sur les matrices).
Si X’ est la transposée de X, la matrice des coefficients est (X’X)-1X’Y. Ouvrons le bal avec X’X :
La matrice inverse (X’X)-1 est :
Quant à X’Y, c’est une autre histoire…
Et voici que les destins se croisent pour nous offrir la matrice des coefficients (X’X)-1X’Y.
D’où l’équation :
Vu les montants, la constante -0,9 est juste là pour faire joli… Calculons à présent l'erreur quadratique moyenne σ² à partir des résidus de la régression.
La racine carrée, c’est-à-dire l’erreur-type, s’établit à 15,425. Nous pouvons maintenant calculer les écarts-types des trois estimateurs. Soit σ² (X’X)-1 :
Cette matrice des variances-covariances fournit les variances des estimateurs, donc leurs écarts-types (par ordre d’entrée en scène, donc d’abord la constante) :
Voici ci-dessous la sortie d’un logiciel, en l’occurrence Statistica. La troisième et la quatrième colonne présentent les résultats établis ci-dessus. On retrouve également la valeur de l’erreur-type. La suite de l'analyse figure en page tests sur paramètres de régression, à l'exception des validations d'hypothèses sur les résidus (test de Durbin-Watson, tests de normalité...)
NB: les variables d'une régression ont des mesures parfois très différentes. Un modèle peut intégrer une variable binaire (valeur 0 ou 1) et un PIB en euros. Par conséquent, il serait risqué de rejeter un coefficient de régression « pifométriquement » proche de zéro ! Voir notamment la page régression avec saisonnalité.
|











