Le lambda de Wilks

Test du lambda de Wilks

Contrairement à l’ANOVA qui compare une moyenne simple de plusieurs sous-populations, l'analyse factorielle discriminante (AFD) consiste à séparer des sous-populations en fonction de PLUSIEURS caractéristiques (analyse multivariée). Les groupements obtenus présentent-ils des moyennes significativement différentes ? Vous le saurez en utilisant le lambda de Wilks...

 

Conditions d'utilisation

On suppose que les matrices de covariance des différentes sous-populations sont identiques (ce qui se vérifie avec un test de Box) et que les variables présentent des distributions normales. Ce sont d’ailleurs les conditions d’utilisation de l’AFD dans sa version la plus courante.

chercheuse

 

Le lambda

Le lambda de Wilks est une statistique qui compare simultanément plusieurs moyennes en mesurant la part d’inertie intraclasse dans l’inertie totale. Plus précisément, c’est le déterminant de la matrice des variances-covariances intraclasse rapporté au déterminant de la matrice des variances-covariances totale. Il est donc compris entre 0 (bonne discrimination) et 1.

Il n’existe pas de niveau unique à partir duquel notre lambda indique que les sous-populations sont suffisamment différentes. Tout dépend du nombre de classes, de l’effectif, du nombre de variables et bien sûr du niveau de confiance que l’on se donne.

 

Le test

Et c’est bien sûr un test qui va nous permettre de répondre à cette fameuse question de savoir si les moyennes sont considérées comme identiques. Donc, hypothèse H0 à valider : les centroïdes sont égaux. Votre logiciel favori vous restitue la p-value et parfois la valeur du lambda mais ce dernier suivant une distribution particulièrement complexe, il s’agit en général de l’approximation de Rao (par une loi de Fisher) au-delà de trois classes.

Éventuellement, un deuxième test utilisant le lambda de Wilks permet de sélectionner les variables les plus efficaces par un processus itératif.

 

Exemple

Reprenons l’exemple de la page sur l'analyse discriminante décisionnelle :

Data

Les sorties de XLSTAT sont les suivantes :

Sortie Xlstat

On constate que le lambda est élevé. Sa p-value est supérieure à 0,05. Le tableau ci-dessous montre qu’aucune variable prise isolément n’indique de moyenne de classe suffisamment différente entre les OUI et les NON (un exemple avec un bon lambda figure en page exemple d'AFD).

Sortie Xlstat

Sur SPSS, le tableau équivalent indique qu’il n’est pas utile de poursuivre l’analyse…

Sortie SPSS

 

lambda de Wilks