mèche perceuse

 

 

 

 

 

 

 

 

 

 

 

 Techniques statistiques utilisées en entreprise

Les statistiques n’ont pas toujours bonne presse. Accusées de présenter des chiffres tendancieux ou d’ignorer les réalités humaines qui se cachent derrière les chiffres, elles n’en sont pas moins un formidable outil d’investigation. Et dès lors qu’un outil a fait ses preuves, ce n’est pas lui qui est critiquable mais celui qui l’utilise…

En fait, les statistiques constituent un grand nombre d’outils et non un seul. De plus, les contours du domaine sont flous. Selon le Petit Larousse, la statistique est l’« ensemble de méthodes mathématiques qui, à partir du recueil et de l’analyse de données réelles, permettent l’élaboration de modèles probabilistes autorisant les prévisions ». Mais cette définition est très restrictive puisqu’elle exclut les statistiques descriptives !

Je donnerai ici un sens très large aux statistiques tout en excluant les méthodes de type « boîte noire » (réseaux de neurones, algorithmes génétiques…). D’une façon générale, les statistiques constituent une branche des mathématiques appliquées parmi d’autres (recherche opérationnelle, mathématiques financières) mais les maths ne font pas « parler les chiffres ». Les problématiques sont différentes.

Survolons les diverses méthodes selon deux distinctions.

La première de ces distinctions sépare les techniques univariées de celles qui sont multivariées. Une technique univariée s’attache à une seule variable ou à une seule mesure (même s’il y a plusieurs échantillons). Une technique multivariée permet de découvrir des relations entre plusieurs variables. Lorsque deux variables seulement sont étudiées, on parle d'analyse bivariée.

La seconde distinction retient trois possibilités. Soit la technique est descriptive et elle ne fait que résumer un ensemble d’observations, soit elle est prédictive (ou inférentielle) et elle conduit à établir un modèle probabilisé utilisable pour d’autres données que celles qui ont permis son établissement, soit elle est prévisionnelle. Cette dernière peut se concevoir comme un ensemble de méthodes particulières de techniques prédictives mais adaptées aux séries temporelles.

Univariées et desciptives

Une simple présentation de chiffres ne correspond qu’au sens vulgaire du mot statistiques. Pour mériter le label, il faut au moins calculer quelques informations synthétiques ! Ainsi, sur une seule variable quantitative, on peut établir la moyenne, l’écart-type, les quantiles…  Quelques-unes de ces grandeurs sont enseignées en classe de seconde et de première. Vous trouverez tous les détails en page distribution univariée.

Enfin, diverses séries chronologiques peuvent être comparées si on les ramène à des indices simples. Il s’agit de descriptions dès lors qu’on ne cherche pas à extrapoler ce qui a été observé.

Les techniques univariées descriptives sont celles qui offrent le plus de possibilités de représentations graphiques. Si la variable est qualitative, on présente les proportions des différentes modalités de la variable étudiée (graphique circulaire, par exemple) sans que cela ne donne lieu à des calculs.

Multivariées et descriptives

Quelques techniques bivariées permettent de mesurer la qualité du lien qui existe entre deux variables quantitatives (corrélation) ou qualitatives (test d’indépendance du khi²).

Les techniques multivariées sont plus souvent nommées « analyse de données ». On connaît les valeurs de plusieurs variables sur une population et l’on souhaite s’en servir pour déceler des proximités entre individus (au sens statistique ; ce ne sont pas forcément des personnes) ou pour individualiser des groupes homogènes. Ce sont les techniques de classification qui sont alors utilisées. Un autre ensemble de techniques, les analyses factorielles, visent non seulement à trouver les proximités entre variables et / ou entre individus mais aussi à déterminer les critères qui contribuent le mieux à « expliquer » les différences. Certaines techniques s’appliquent aux variables quantitatives et d’autres aux variables qualitatives. L’analyse discriminante descriptive se situe entre les deux dans la mesure où il s’agit d’une analyse factorielle dont l’objet est proche de celui d’une classification.

Les graphiques utilisés sont les nuages de points dans les plans factoriels et, pour un certain type de classification (la CAH), le dendrogramme. Une description bivariée de variables qualitatives est réalisable par stéréogramme.

Enfin, un mot sur les indices composites : on peut les qualifier de descriptifs car, bien qu’établis sur des séries temporelles, ils n’ont pas de finalité prédictive et de bivariés dans la mesure où ils font intervenir des prix et des quantités.

Univariées et prédictives

On considère à présent que la variable examinée est une variable aléatoire. Typiquement, elle est observée sur un échantillon dont on voudrait extrapoler quelques unes de ses statistiques descriptives (moyenne, proportion, variance) à une population totale, à moins que l’on compare cette statistique entre deux ou plusieurs échantillons pour estimer si les différences relevées sont dues au hasard ou non. Nous voici au pays des tests. Un test permet d’évaluer le risque de se tromper lorsqu’on formule une hypothèse du type « l’appétence pour ce produit est la même en France et en Allemagne » L’évaluation d’un risque repose évidemment sur des probabilités. Nous nous situons dans le cadre des statistiques probabilistes.

Il faut connaître la loi de probabilité que suit la variable observée. Certaines lois théoriques sont bien connues (loi normale, loi de Poisson…) et il est pratique de les utiliser parce qu’on peut alors employer des tests dit « paramétriques » particulièrement efficaces. Encore faut-il pouvoir rattacher une distribution observée à l’une de ces distributions théoriques. Afin d’estimer si une variable suit une loi en particulier, un premier test est réalisé (test d’adéquation à une loi ; voir tests de normalité, test de Kolmogorov, test d’adéquation du khi²). Si le test ne peut être rattaché à une loi théorique ou si les observations sont trop peu nombreuses, on utilise des tests non paramétriques, souvent moins puissants

Les types de tests sont nombreux, certains étant applicables aux variables numériques et d’autres aux variables qualitatives. Ils ne donnent pas lieu à des représentations graphiques, la problématique étant plutôt de savoir si les graphiques de statistiques descriptives sur un échantillon peuvent être étendus à d’autres échantillons ou à une population entière…

Multivariées et prédictives

La technique bivariée prédictive la plus connue est la régression linéaire simple. On s’intéresse à la relation entre une variable explicative et une variable expliquée. Cela dit, pour vraiment mériter sa définition de technique prédictive, il faut probabiliser la capacité d’une régression à conserver sa qualité dans une problématique d’extrapolation. Les techniques d’analyses de données sont certes descriptives mais, lorsqu’elles ont été conduites sur des échantillons très volumineux, elles acquièrent une sorte de légitimité pour situer de nouvelles observations (qui n’ont pas servi à établir le modèle) sans qu’il soit nécessaire de faire intervenir des probabilités. Cependant, certaines techniques ont un but directement prédictif ou « extrapolatif » : l’ANOVA multivariée, l’analyse discriminante prédictive et bien sûr la régression multiple.

Prévisionnelles

La distinction entre univariées et multivariées n’est pas habituelle dans le cadre des techniques prévisionnelles, la plupart d’entre elles étant univariées. Certaines font cependant du multivarié avec de l’univarié ! En effet, elles considèrent chaque observation comme une variable aléatoire particulière. Les diverses techniques figurent en page prévision des ventes. Si une régression multiple intègre une ou plusieurs variables « temps » parmi ses variables explicatives dans le dessein d’extrapoler la variable expliquée dans le futur, on peut la considérer comme une technique multivariée prévisionnelle.

Les graphiques sont toujours des courbes, éventuellement accompagnées d’un nuage de points…

 

ex-statisticien

plus de livres (France)    plus de livres (Canada)