Distribution à 2 variables et types de fréquences
Des notions essentielles de statistiques descriptives sont enseignées dès le collège. Il s’agit alors d’étudier des distributions à une variable. Par exemple, sur un échantillon de 200 tablettes de chocolat aux noisettes, prises au hasard dans la chocolaterie, on compte combien chaque unité contient de noisettes. Le nombre de noisettes est la variable statistique (ou caractère) à partir de laquelle on calcule joyeusement une moyenne, un écart-type, une médiane, un mode ou des quartiles (programme de seconde).
Les fréquences calculées à partir de tableaux d'effectifs à double entrée (parfois appelés tableaux de contingence) font partie du programme de maths de première technologique. Vous pouvez aussi faire l'exercice sur les fréquences, plutôt facile.
Distribution à deux caractères
Admettons que ces tablettes sont de trois types : chocolat noir, blanc ou au lait. Certes, des statistiques sont réalisables là-dessus, indépendamment du nombre de noisettes. Mais il peut être instructif de croiser les deux variables, par exemple pour un contrôle de qualité : y a-t-il plus ou moins de noisettes selon que le chocolat est de tel type ? Les résultats sont repris dans un tableau. Ici, une variable numérique est croisée avec une qualitative mais toutes les combinaisons sont possibles.
Si seule l’information « nombre de noisettes » avait été disponible, le responsable de la qualité aurait été perplexe en constatant que cinq tablettes ne contenaient aucune noisette. Grâce à ce tableau, il sait qu’il y a eu un problème avec le chocolat blanc. Il mène son enquête et s’aperçoit rapidement que c’est l’ouvrier en charge de la machine-à-mélanger-les-noisettes-au-chocolat-blanc, mal réveillé, qui a oublié de brancher l’appareil (ah le benêt). Mais il existe toujours des informations moins évidentes à détecter !
Si l’on divise chaque valeur par l’effectif total, en l’occurrence 200, on obtient des fréquences.
L’intérieur du tableau montre les fréquences conjointes (ce terme n'est pas au programme de première). Ainsi, \(5\%\) des tablettes sont de chocolat blanc et contiennent 19 noisettes.
La ligne et la colonne « Total » montrent les fréquences marginales. On constate par exemple que \(20\%\) des tablettes contiennent 18 noisettes ou encore que \(34\%\) des tablettes contrôlées sont de chocolat noir.
Dans les ouvrages de statistiques, une notation est habituellement employée. Un nombre est indiqué par \(n,\) indicé par \(i\) lorsqu’il s’agit d’une ligne et \(j\) pour une colonne (sur le modèle du repère normé \((O\,; \overrightarrow{i}\,; \overrightarrow{j})\) où \(\overrightarrow{i}\) est le vecteur horizontal). Un point indique un total. Même chose avec le tableau des fréquences \(f\) :
Ainsi, une fréquence conjointe et les fréquences marginales sont définies comme suit :
- \(\displaystyle{f_{ij} = \frac{n_{ij}}{n}}\)
- \(\displaystyle{f_{i.} = \frac{n_{i.}}{n}}\)
- \(\displaystyle{f_{.j} = \frac{n_{.j}}{n}}\)
Troisième notion : la fréquence conditionnelle, qui n’apparaît pas sur le tableau. On ne raisonne plus sur la totalité des tablettes mais sur une catégorie seulement.
La variable fixée peut être celle qui figure en ligne. Ci-dessous, le tableau des profils-lignes :
Nous constatons que \(7,8\%\) des tablettes de chocolat blanc ne contiennent aucune noisette (on divise 5 par 64).
La catégorie fixée peut aussi être celle qui est représentée en colonne. Ci-dessous, le tableau des profils-colonnes :
Il apparaît que \(36,4\%\) des tablettes contenant entre une et quinze noisettes sont au chocolat noir (on divise 8 par 22).
Écritures : \(\displaystyle{f_{j/i} = \frac{n_{ij}}{n_i.}}\) et \(\displaystyle{f_{i/j} = \frac{n_{ij}}{n_.j}}\)
Note : ce qui suit n'est pas au programme de première.
Caractéristiques marginales et conditionnelles
À partir du tableau de contingence, on peut calculer la moyenne ou la variance d’une distribution marginale. Évidemment, la variable doit être quantitative : dans notre exemple, nous pouvons connaître le nombre moyen de noisettes mais pas un type moyen de chocolat ! Ces caractéristiques s’obtiennent avec la ligne « Total ». On peut aussi calculer moyennes et variances conditionnelles à partir de l’une des trois lignes du dessus (nombre moyen de noisettes sachant que le chocolat est noir, par exemple).
Dépendance et indépendance
Si chaque fréquence conjointe est égale au produit des deux fréquences marginales correspondantes, il y a indépendance. Typiquement, cela se produit si les deux variables étudiées n’ont rien à voir : \(f_{ij} = f_{i.} × f_{.j}\) ou, si l’on observe les fréquences conditionnelles, \(f_{i/j} = f_{i.}\) et \(f_{j/i} = f_{.j}.\) Bref, le « sachant que » n’apporte rien. Si l’on croisait chaque année le nombre de naissances de phoques au Groenland avec le nombre de buts marqués par l’OL, ce serait pour constater une indépendance totale : les deux séries de valeur n’ayant rien à voir, la connaissance de l’une ne permettrait pas d’avoir la moindre idée sur l’autre.
Nous touchons-là au but de l’analyse concomitante de deux variables : déterminer s’il existe une corrélation entre elles, grâce à la notion de covariance, et en mesurer l’importance. C’est pourquoi les distributions à deux variables permettent souvent d’introduire la régression linéaire simple et la corrélation dans les cours de statistiques.
Pour mesurer chaque écart par rapport aux fréquences marginales, on peut aussi utiliser les indices de spécificité, qui sont les rapports entre les fréquences conjointes et les fréquences marginales. Observons sur l’avant-dernier tableau les tablettes à 18 noisettes ; la fréquence observée pour le chocolat au lait est de 0,206 contre 0,2 sur l’ensemble des chocolats. L’indice s’établit donc à \(\frac{0,206}{0,2} × 100 = 103.\) Le chocolat au lait est surreprésenté pour \(3\%\) dans la catégorie « 18 noisettes ».
Une problématique en termes de probabilités se calque facilement sur l’analyse des fréquences. Les lois marginales font écho aux fréquences marginales.
Diverses techniques évaluant les liaisons sont adaptées aux différents types de variables : régression et corrélation, méthode de Theil, analyse de variance (ANOVA), test du khi² d’indépendance, indicateurs d'associations, analyse factorielle des correspondances, etc.