Les tests préalables à une analyse discriminante

Exemple de sélection de variable discriminante

Bien qu’une AFD ou une analyse discriminante décisionnelle peuvent se contenter d’hypothèses de normalité et d’homoscédasticité pas tout à fait satisfaites, il est plus sûr de vérifier qu’une méthode non linéaire n’est pas préférable…  Les étapes illustrées sur cette page illustrent le processus décrit en page sélection de variables pour une analyse discriminante.

 

Exemple de tests de normalité

Ceci est le détail du traitement de la variable km / an, extraite de l’exemple de la page AFD.

Dans le cadre d’une étude de marché pour un constructeur automobile, un échantillon de trente automobilistes possédant un modèle particulier est interrogé. Celui-ci est séparé en deux groupes égaux : ceux qui changeront probablement de véhicule dans les deux ans à venir et ceux qui ne comptent pas le faire.

Variable à expliquer : 1 = pas de changement prévu. 2 = changement prévu.

km/an Âge Taille foyer Budget Âge voiture Change-ment ?
3 000 50 2 4 00 5 1
7 000 37 1 1 000 3 1
8 000 28 4 1 200 3 1
10 000 40 3 2 000 2 1
13 000 70 2 3 100 1 1
15 000 46 5 3 000 2 1
20 000 31 4 2 500 3 1
20 000 47 3 2 800 2 1
25 000 37 2 2 500 1 1
25 000 32 2 3 500 2 1
28 000 52 3 3 000 1 1
30 000 39 3 4 000 4 1
40 000 54 2 2 500 3 1
45 000 62 1 2 800 2 1
50 000 35 2 2 500 2 1
12 000 29 2 2 000 4 2
15 000 30 1 3 000 5 2
25 000 55 2 3 000 3 2
26 000 55 2 3 200 5 2
30 000 40 5 2 500 1 2
30 000 47 3 1 000 2 2
35 000 36 3 3 000 5 2
35 000 59 2 4 500 7 2
40 000 35 3 3 000 6 2
42 000 36 3 3 200 7 2
45 000 42 4 2 800 4 2
50 000 44 4 3 600 4 2
60 000 46 2 2 400 3 2
60 000 50 3 4 000 4 2
80 000 51 2 5 000 4 2

Nous avons deux modalités de variable à expliquer et cinq explicatives soit dix distributions à tester mais on ne s’intéressera ici qu’à la variable km / an.

Réalisation sur XLSTAT (extrait) :

Ne sont repris ici que les tests de la première distribution (km / an si aucun changement prévu, soit \(n = 15\). Cliquer sur « Description des données ».

\(H_0\) : distributions normales. \(H_1\) : distributions un peu trop fantaisistes.

Shapiro

C’est OK. On ne rejette pas l’hypothèse de normalité au seuil de signification 0,05. Voyons si les autres tests confortent cette décision.

Jarque-Bera

Anderson-Darling

Lilliefors

Toutes les p-values sont supérieures à 0,05. Ceci ne permet pas d’affirmer haut et fort que la distribution est normale mais, au moins, on peut poursuivre l’analyse…

 

Exemple de test du F

Peut-on considérer que, sur la variable km / an, les variances sont égales au seuil de 0,05 entre les groupes « changement » et « non changement » ?

Test de comparaison de variances : \(H_0,\) variances identiques. \(H_1\), variances différentes.

Après un premier tableau de statistiques descriptives, XLSTAT donne les résultats suivants :

Test F

Joie ! On peut supposer l’homoscédasticité entre les deux groupes et, sous réserve de la même vérification sur les autres variables, envisager une analyse discriminante !

Test de comparaison de moyennes

S’il s’avère que km / an figure parmi les « nominés », on ne peut pas pour autant affirmer que cette variable est discriminante. L’examen suivant est particulièrement important : le nombre moyen de km / an est-il suffisamment différent entre les automobilistes qui changeront de voiture et les autres ?

Hypothèses : \(H_0,\) les moyennes sont égales. \(H_1,\) elles sont différentes.

Extraits de XLSTAT (test non paramétrique puis test t).

Stats descriptives

Test t

On peut rejeter l’hypothèse nulle d’égalité des moyennes et prendre en compte cette variable dans l’analyse. Que du bonheur…

 

testeur