Variables statistiques et aléatoires
Le matériau de base du data analyst est la donnée. Lorsque celle-ci est prête à être traitée, moyennant d'éventuels changements de format et nettoyages divers, elle est qualifiée selon la façon dont on peut la traiter et devient un caractère statistique (pour employer le terme consacré dans le secondaire) ou variable. C’est dire si le sujet est d’importance…
D'un point de vue pratique, ces variables existent sous quatre formes : deux quantitatives (discrètes et continues) et deux qualitatives (nominales et ordinales). Les variables discrètes et nominales sont bien illustrées en page de fréquences qui est une initiation aux statistiques surtout destinée aux élèves de seconde. Selon l'utilisation qui en est faite, il existe aussi une différence conceptuelle. La distinction s'opère cette fois-ci entre variables statistiques, ou caractères, et variables aléatoires (v.a.).
Mathématiquement, une v.a \(X\) est une application d'un ensemble de départ \(Ω\) vers un ensemble de modalités \(X(Ω).\)
Variables quantitatives
\(n\) clients entrent dans le fast-food. Le gérant s’intéresse a posteriori au montant de leurs achats. Ils ont dépensé une certaine somme mais ils auraient pu en dépenser une autre, voire rien du tout parce qu'ils ont décidé au dernier moment d'entamer une diète. La recette de la journée relève bien des statistiques et non des mathématiques stricto sensu puisqu'il n'y a aucun déterminisme.
Le montant des achats est une variable statistique quantitative (ou numérique) continue. Elle est considérée comme continue parce qu’il peut y avoir une grande variété de totaux de facture, même si mathématiquement ce n'est pas exact puisqu'un prix est arrondi à deux décimales (et qu'il existe donc un nombre fini de factures possibles).
Supposons à présent qu'un commerçant en téléphonie s’intéresse au nombre d'appareils vendus : il observe une autre variable statistique mais celle-ci est discrète dans la mesure où les clients repartent avec zéro ou un nombre entier de téléphones, mais pas avec la moitié d'un.
Il n’est pas toujours facile de décider si une variable sera considérée comme discrète ou continue. Une note sur 20 est-elle discrète ? Et une note sur 100 ? Et sur 1 000 ? Car après tout, quelle que soit sa précision, une mesure est toujours discrète…
Une variable peut nécessiter un traitement préalable à l’analyse (sans parler du travail parfois conséquent sur les modalités de ces variables). Exemple : le regroupement des âges en classes dans le cadre d’une enquête. Ce n’est pas la partie la plus noble d'une mission de data analyst mais elle peut orienter les résultats de l’étude selon la façon dont elle est conduite… En l’occurrence, le regroupement en classes revient à considérer comme discrète une variable continue, quoiqu'on parle plutôt de variable d'intervalle. L’intérêt de la transformation, c’est d’espérer recevoir plus de réponses de la part des répondants dans le champ d'une enquête, de faciliter la saisie des données mais aussi de permettre certains types d'analyses statistiques supplémentaires. Le prix à payer est une perte d'information que l'on espère minime.
Variables qualitatives
Une variable peut être ordinale, auquel cas sa valeur est celle d’un classement (premier, deuxième…). Les techniques statistiques susceptibles de les traiter sont beaucoup moins nombreuses que celles qui décortiquent des variables continues.
Une variable peut aussi être nominale et prendre plusieurs modalités. C’est par exemple la marque du téléphone acheté par notre cher client. Variables nominales et ordinales sont dites qualitatives.
Lorsqu’un caractère ne prend que deux modalités, par exemple pile ou face, il est dit dichotomique, voire binaire ou booléen si ces modalités sont 0 et 1. En revanche, le nombre de fois où l’une de ces deux modalités est apparue au cours d’un certain nombre de tirages est bien sûr une variable statistique discrète (on ne parle pas encore de probabilités, il s'agit juste pour l'instant d'observations).
Des difficultés peuvent surgir dans la qualification de la variable : supposons qu’elle prenne pour modalités « gros », « moyen » et « petit ». Selon le sujet, on peut considérer qu’il s’agit d’une variable nominale ou numérique discrète. Dans ce dernier cas, la modalité est remplacée par un nombre (par exemple, gros = 3, moyen = 2 et petit = 1).
On lit souvent qu'il n'existe pas de variable qualitative continue. Ce n'est pas tout à fait exact. Si votre écran d'ordinateur est capable de restituer 16,7 millions de couleurs, on peut considérer que la couleur est une variable qualitative continue. Mais aucune technique statistique ne s'applique à ce type de variable, somme toute rarissime.
Variables statistiques
Une valeur connue d’avance par une relation physique ou mathématique n’a rien de statistique. Prenez la fonction logarithme. Il existe bien une variable \(x\) mais elle n’est pas statistique puisque la valeur de \(\ln x\) est déterminée quel que soit le nombre positif \(x.\) La relation est déterministe.
En revanche, dès lors qu'une unité statistique peut prendre plusieurs modalités ou valeurs, il existe une application entre l'ensemble des individus \(Ω\) (la population) et l'ensemble des modalités. C'est cette application qui est nommée variable statistique.
On remarque donc que ce n'est pas une variable au sens mathématique du terme...
L’ensemble de départ \(Ω\) d’une variable statistique est la population ou l’échantillon. Une application associe aux éléments de cet ensemble (individus) une valeur ou une modalité possible.
Voyons maintenant comment de banales variables statistiques vont générer de flamboyantes variables aléatoires.
Variables aléatoires
Cette métamorphose est réalisée si des observations ont été effectuées sur un échantillon aléatoire dans le but d'extrapoler à toute une population les fréquences observées. Ces dernières sont considérées comme des probabilités. L'approche est différente.
Comme son nom l’indique, la v.a. n’est pas connue a priori avec certitude. En revanche, comme son nom ne l'indique pas, elle n'est pas une variable au sens mathématique mais une application (c'est-à-dire une fonction).
\(Ω\) est désormais l'univers des possibles et non plus la population. Une v.a. est alors une application de cet ensemble vers un ensemble de réalisations. Ce dernier est un sous-ensemble de réels si la v.a. est quantitative.
Sur un certain nombre d’observations, on relève la probabilité que notre v.a. prenne telle valeur ou telle modalité. On en tire une loi de probabilité. Cette loi peut prendre la forme d’un tableau qui fait apparaître une probabilité pour chaque valeur de la v.a (avec une somme des probabilités évidemment égale à 1) mais cette situation rudimentaire se trouve surtout dans l'enseignement secondaire… En pratique, les choses sont plus compliquées et l’on rattache aux valeurs observées une loi théorique qui autorise d’intéressants développements. Il en existe pour toutes les situations. Certaines d’entre elles s’appliquent aux v.a. continues (lois normale, log-normale, de Weibull, exponentielle, de Cauchy, gamma, bêta, de Gumbel, de l'arc-sinus…), d’autres aux v.a. discrètes (lois de Poisson, binomiale, géométrique, hypergéométrique, de Pascal...) et d’autres encore s’appliquent aussi bien aux unes qu’aux autres (loi uniforme).
Les statisticiens s'intéressent très souvent à des lois conjointes, issues du croisement entre deux v.a.
Traditionnellement, une v.a. se note avec une majuscule. Ainsi, la probabilité de gagner 20 euros à une loterie s’écrit habituellement \(P(X = 20).\) Si l'on note les valeursS prises par une v.a., c'est avec une minuscule (\(x_i\)).
La distribution d'une variable numérique est résumée par des paramètres : moyenne, variance, asymétrie, aplatissement… Du moment qu'ils ne font que constater, nous sommes dans le cadre des statistiques descriptives. Mais si l’on souhaite les extrapoler à la population entière, alors ils deviennent eux-mêmes des v.a. puisqu’ils ont été relevés sur un échantillon lui-même aléatoire. Une énorme part du travail des statisticiens concerne l’étude de ces v.a. (en particulier la moyenne, appelée espérance dès lors qu'elle est pondérée par des probabilités, et la variance). Notamment, des tests permettent de valider ou non des hypothèses sur ces paramètres.