Variables statistiques et aléatoires
La variable aléatoire (v.a), en anglais random variable, est le type de matériau qu’utilise le statisticien (le matériau lui-même étant la DONNÉE). C’est dire si le sujet est d’importance… Comme son nom l’indique, la v.a n’est pas a priori connue avec certitude. Prenons quelques exemples mais, bien que cela puisse paraître à certains comme du pinaillage, on parlera d’abord de variable statistique (la typologie des v.a est de toute façon la même). Un client entre dans le magasin. On s’intéresse a posteriori au montant de ses achats. Il y dépense une certaine somme mais il pourrait aussi bien en dépenser une autre, à moins qu’il n’achète rien du tout. Le montant de ses achats est une variable statistique quantitative (ou numérique) continue. On considère que ce caractère est continu parce qu’il peut y avoir une grande variété de totaux de facture. Mais supposons que le magasin vende des téléphones et qu’on s’intéresse alors au NOMBRE de téléphones vendus à ce client : on observe une autre variable statistique mais celle-ci est discrète dans la mesure où le client repart avec zéro, un, deux téléphones, peut-être davantage mais pas avec un demi-téléphone. Une variable peut être ordinale, auquel cas la valeur prise est celle d’un classement (premier, deuxième…). Les techniques statistiques susceptibles de les traiter sont beaucoup moins nombreuses que celles qui décortiquent des variables continues. Une variable statistique peut aussi être nominale. On l’appelle souvent caractère. Un caractère prend plusieurs modalités. C’est par exemple la marque du téléphone acheté par notre cher client. Variables nominales et ordinales sont qualitatives. Lorsqu’un caractère ne prend que deux modalités, par exemple pile ou face, il est dit binaire. En revanche, le nombre de fois que l’une de ces deux modalités apparaît au cours d’un certain nombre de tirages est bien sûr une variable statistique discrète. Une valeur connue d’avance comme une relation physique ou mathématique n’a rien de statistique. Prenez la fonction logarithme. Il existe bien une variable x mais elle n’est pas statistique puisqu’on connaît la valeur de ln(x) quel que soit le nombre positif x. Des difficultés peuvent surgir dans la qualification de la variable (ou du caractère, appelons ça comme on voudra) : supposons qu’elle prenne pour valeurs « gros », « moyen » et « petit ». Selon l’analyse, on peut considérer qu’il s’agit d’une variable nominale ou numérique discrète. Dans ce dernier cas, la modalité est remplacée par un nombre (par exemple, gros = 3, moyen = 2 et petit = 1). De même, il n’est pas toujours facile de décider si une variable sera considérée comme discrète ou continue. Une note sur 20 est-elle discrète ? Et une note sur 100 ? Et sur 1 000 ? Car après tout une mesure est toujours discrète… On le devine alors, une variable statistique peut nécessiter un traitement avant l’analyse stricto sensu (et je ne parle pas du travail parfois conséquent sur les valeurs de ces variables). Exemple : regroupement des âges en classes dans le cadre d’une enquête. Ce n’est pas la partie la plus noble du travail de statisticien mais elle peut orienter les résultats de l’étude selon la façon dont elle est conduite… En l’occurrence, le regroupement en classes revient à considérer une variable discrète. Les techniques statistiques qui seront utilisées par la suite peuvent ne pas être les mêmes que si l’on disposait de la date de naissance (impliquant une variable continue) et il y aura une perte d’information. L’intérêt de la transformation, c’est d’espérer recevoir plus de réponses de la part des répondants ou de faciliter la saisie des résultats du sondage. Voyons maintenant comment de banales variables statistiques vont générer de flamboyantes variables aléatoires. Cette métamorphose est réalisée si les observations ont été effectuées sur un échantillon aléatoire et si l’on cherche à extrapoler à toute la population les conclusions qu’on a pu en tirer. Qui dit v.a dit probabilités. Sur un certain nombre d’observations, on relève la probabilité que notre v.a prenne telle valeur ou telle modalité. On en tire une loi de probabilité. Cette loi peut prendre la forme d’un tableau dont la somme des probabilités est égale à 1 mais cette approche rudimentaire se trouve surtout dans les épreuves du bac… En principe, on n’en reste pas là et l’on rattache à cette loi observée une loi théorique qui permet d’importants développements. Certaines d’entre elles s’appliquent aux v.a continues (loi normale, loi log-normale, loi de Weibull, loi exponentielle…), d’autres aux v.a discrètes (loi de Poisson…), d’autres aux binaires (binomiale et hypergéométrique) et d’autres encore s’appliquent aussi bien aux v.a discrètes qu’aux continues (loi uniforme). Traditionnellement, une v.a se note avec une majuscule. Ainsi, la probabilité de gagner 20 euros à une loterie s’écrit P(X = 20). NB : il n’est pas interdit d’avoir l’esprit frondeur et de l’écrire autrement. Une v.a numérique possède certains indicateurs qui résument la loi de probabilité sur l’échantillon observé : moyenne, variance, asymétrie, aplatissement… Du moment que ces indicateurs ne font que CONSTATER, nous sommes dans le cadre des statistiques DESCRIPTIVES. Mais si l’on souhaite les extrapoler à la population entière, alors ils deviennent eux-mêmes des v.a. puisqu’ils ont été relevés sur un échantillon lui-même aléatoire. Une énorme part du travail des statisticiens concerne l’étude de ces indicateurs considérés comme des v.a (en particulier la moyenne, appelée alors espérance, et la variance). Notamment, les tests permettent de valider ou non des hypothèses sur ces indicateurs. Et pour ceux que ça intéresse, un peu de théorie. L’ensemble de départ d’une variable statistique est la population ou l’échantillon. Une application associe aux éléments de cet ensemble (individus) une valeur ou une modalité possible (l’ensemble d’arrivée est donc celui des possibles). Cet ensemble des possibles devient à son tour un ensemble de départ. Une v.a est alors une application de cet ensemble vers un ensemble de réalisations. En principe, ce dernier est celui d'une partie des réels si la v.a est quantitative. Bibliographie : Statistiques pour économistes et gestionnaires, Brigitte Tribout, Pearson 2007. Séparation très rigoureuse entre variables statistiques et variables aléatoires.
|



