Un exemple de test d'indépendance

Sorties de logiciels : indépendance du khi²

La page que vous avez le bonheur de consulter présente des sorties de logiciels à partir d'un exemple simple.

 

Données

Dans le cadre d’un scoring d’acceptation pour un crédit d’acquisition de produits électroménagers, on observe une population de 1 933 demandeurs en fonction de quatre tranches d’âge et du critère accepté vs refusé (variable DEC). Existe-t-il un lien entre ces tranches d’âges (variable quantitative considérée comme qualitative) et la décision ?

acceptés / refusés

 

Analyse

Coupons court au suspense, le \(\chi ^2\) est égal à 40,186 avec \((4 - 1)(2 - 1)\) \(=\) \(3\) degrés de liberté. La valeur de la probabilité associée au test est donc quasi nulle (\(9,7 \times 10^{-9}\)). Pas d’hésitation possible : c’est avec un certain enthousiasme que l’on rejette l’hypothèse nulle, ce nombre étant largement inférieur au 0,05 usuel… Il y a donc bien une « discrimination » sur l’âge. Le \(\chi ^2\) et toutes les statistiques complémentaires ci-dessous trouveraient toutefois leur pleine utilité en comparant ce tableau avec un autre, dans lequel les tranches d’âges seraient un peu différentes (ceci pour savoir si un autre découpage laisserait envisager une grille de score plus discriminante).

discrimination

Excel : après avoir entré le tableau ci-dessus, il convient de construire vous-même le tableau des valeurs théoriques… (voir comment en page test d’indépendance du khi²). Placez-vous ensuite sur une cellule vierge et appelez la fonction TEST.KHIDEUX. Vous entrez ensuite les deux plages de valeurs, observées et théoriques, et Excel vous donne la p-value associée au test. Inférieure à 0,05 ? Vous avez détecté une liaison !

SAS : devant l’étendue des possibilités de SAS, on se contentera d’observer la sortie d’une proc freq avec l’option / chisq.

Passons sur le tableau qui inclut effectifs, pourcentages du total, en lignes et en colonnes pour me rendre directement au résultat.

sortie SAS

Note : Contingency Coefficient et Cramer's V : voir les mesures d'association.

Statgraphics Centurion : procédure Tri croisé si les données ne sont pas déjà sous forme de tableau puis procédure Tableaux de contingence. En sortie : tableau des effectifs, histogrammes, le test du \(\chi ^2 ,\) des statistiques résumées et les rapports des chances estimés et risques relatifs. Avec pour chaque rapport un petit commentaire explicatif. Nous ne détaillons ci-dessous que le rapport « Statistiques résumées » sans les commentaires associés.

tableau Statgraphics

tableau 2

Tanagra : nécessite d’entrer les données en liste. Nous n’avons pas indiqué les sorties dans la mesure où d’autres exemples de restitutions du \(\chi ^2\) données par ce logiciel libre sont indiquées sur ce site (voir test d’indépendance du khi²). Signalons les particularités suivantes : tableau de contingence avec cases colorées en rouge lorsque leur contribution est deux fois plus élevée que la contribution moyenne, statistiques relativement complètes (\(T\) de Tschuprows, \(U\) de Theil…).

XLSTAT : beaucoup d’informations. Statistiques habituelles du \(\chi ^2\) puis du \(G^2\) de Wilks (le Likelihood Ratio Chi-Square de SAS). Un \(\chi ^2\) peut en outre être estimé par la méthode de Monte Carlo. Les mesures d’association sont les suivantes :

Sorties Xlstat

D’autres mesures apparaissent dans des cas particuliers de tableaux ayant le même nombre de lignes que de colonnes (Kappa de Cohen) ou de tableaux \(2 × 2\) : (\(Q\) de Yule, \(Y\) de Yule, odds ratio, log odds ratio). Le tableau de contingence est restitué sous de nombreuses formes, y compris graphiques.

 

Sans acquisition de logiciel

...Mais grâce à Internet : voir le test de la médiane.

 

liaison