mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Le test de Kolmogorov-Smirnov

Lui, c’est la clé à molette, l’outil non spécialisé qui s’adapte aux situations les plus variées. Et pourtant… Les logiciels ne permettent souvent qu’une utilisation particulière, la table n’est pas facile à trouver, les exemples ne pullulent pas sur le web…

Le test de K-S est l’un des tests d’adéquation non paramétriques les plus courants (avec le khi² mais ce dernier perd davantage d’information). Il permet de comparer une distribution observée avec une autre, ou avec une distribution connue de type loi de probabilité. Notamment, ce test donne une bonne indication d’adaptation à une loi normale (il est toutefois modifié dans ce cas précis et devient test de Lilliefors). De plus, il s’adapte aux échelles ordinales et il est de ce fait très utilisé dans les études de marché. Son principal défaut est de ne pas être très efficace dans les queues de distribution.

Principe

Le principe est simple. On mesure l'écart maximum qui existe entre la fonction de densité cumulée observée  (ou tout simplement des fréquences cumulées) et la fonction de répartition théorique (ou tout autre fonction de densité inconnue sous forme analytique). Sous l’hypothèse H0, cet écart est faible et la répartition des observations s’intègre bien dans une distribution donnée. Un calcul « manuel » nécessite l’utilisation d’une table de Kolmogorov (au-dessous d’une trentaine d’observations) : il suffit alors de comparer la distance maximale à la valeur idoine de la table. Cette valeur tabulée prend en compte l’effectif et le seuil de risque « alpha ».

Un petit graphique permet de bien visualiser ce qu’on cherche à faire :

Graphe Kolmogorov

La flèche verte mesure l’écart maximum entre les observations (en bleu) et la fonction de répartition connue rouge. C’est cette distance D qui est testée : compte tenu de l’effectif, la longueur de cette flèche est-elle considérée comme « petite » ou « grande » ?

Exemple

Une nouvelle clientèle étrangère est attendue dans une station balnéaire. Afin de mieux connaître leurs goûts, des brasseurs ont commandé une étude de marché. En début de saison, on demande à vingt de ces nouveaux touristes de donner leur préférence parmi cinq types de bières, de la moins amère (bière 1) à la plus amère (5). A l’aide d’un test de K-S, le chargé d’études décide de comparer les résultats avec une loi uniforme, c’est-à-dire une situation où chaque bière aurait eu la préférence de quatre répondants.

Les résultats de l’enquête sont les suivants :

1 3 2 5 1 2 2 4 1 2 2 1 3 3 2 4 5 1 1 2

On se fixe un risque d’erreur de 5 %. L’hypothèse H0 à tester est celle de l’égalité avec une loi uniforme.

Résumons les écarts entre observations et répartition uniforme (sur Excel) :

Exemple Kolmogorov

La distance la plus élevée s’établit à 0,25.

Si l’on dispose d’une table, on lit pour n = 20 et α = 5 % la valeur de 0,294. Bien que ces touristes semblent préférer la bière amère, on ne peut pas rejeter l’hypothèse selon laquelle ils n’ont pas de préférence particulière.

Compte tenu des valeurs entières prises par la variable et du faible effectif, j’ai comparé la distribution observée à une autre distribution en escaliers et non à une vraie loi uniforme avec valeurs décimales. En l’occurrence, c'est ce qu'il faut faire si votre logiciel vous propose une comparaison avec une loi uniforme continue.

Attention : avec XLSTAT, le test de K-S d’adéquation à une loi s’obtient par « Modélisation des données » tandis que l’adéquation entre deux distributions observées se vérifie par le menu « Tests non paramétriques ».

 

Kolmogorov

plus de livres (France)    plus de livres (Canada)