Démarche statistique

Protocole d'étude statistique

« Les statistiques sont l’art et la science de collecter, analyser, présenter et interpréter des données » (Anderson, Sweeney, Williams), Statistiques pour l’économie et la gestion (de Boeck) 2007.

Cette belle définition offre un cadre dans lequel s’inscrit un long processus qui permet d’apporter des connaissances dans des domaines particulièrement variés.

Ce processus requiert des compétences qui, selon le type d’étude, peut mobiliser plusieurs professions. Mentionnons les enquêteurs, les informaticiens, les data scientists, les data analysts...

La première partie d’une étude est celle des statistiques descriptives. D’ailleurs, elle est parfois la seule.

Statistiques descriptives

Cette partie se décompose en plusieurs étapes : le protocole de l’étude, la collecte des données, leur organisation et leur traitement.

1- Le protocole de l’étude

Cette étape préalable consiste à tracer le périmètre de l’étude. La méthode QQCQCPC n’est pas enseignée dans les cours de statistiques mais plutôt dans ceux de communication. Pourtant, elle s’applique particulièrement bien à un protocole d’étude et c’est pourquoi nous nous appuierons dessus.

Qui ? Il s’agit de définir le champ de l’enquête, c’est-à-dire de délimiter ce que doit être une unité statistique. Sur qui porte l’étude, qui faut-il interroger ? Faut-il se restreindre à une classe d’âge, à une clientèle ? Sonder des individus, des ménages ? Remarquez qu’une étude ne porte pas toujours sur des humains et le « qui ? » peut se référer à des produits soumis à un test de qualité, par exemple.

Quoi ? Que faut-il observer ? On définit précisément les caractères statistiques ainsi que leurs modalités afin d’éviter toute ambiguïté. Ceci suppose la rédaction d’une nomenclature pour les caractères qualitatifs. Lorsque la variable est quantitative on est souvent amené à définir des classes (par exemple on ne demande pas à un répondant quel est son revenu mais dans quelle fourchette il se situe). On peut aussi définir des variables ordinales, notamment pour les études de marché (voir par exemple la page sur les échelles d'Osgood). Enfin, une règle qui va de soi mais qu’il est bon de rappeler : toute valeur prise par un caractère fait partie d’une et une seule modalité.

Où ? Un sondage se conduit dans un périmètre géographique. On préfère réaliser une enquête d’opinion à proximité d’une gare où les profils des individus sont mélangés plutôt que dans un quartier résidentiel. Une enquête peut être restreinte à la zone de chalandise d’un commerce ou au pays entier, par exemple dans le cadre d’élections nationales.

Quand ? La durée au cours de laquelle un sondage est réalisé peut être très courte, pour des raisons budgétaires mais aussi parce que les comportements ou les opinions changent vite. L’enquête peut aussi durer plusieurs décennies (par exemple dans le domaine médical).

Comment ? Deux Questions derrière le « comment ». Premièrement, par quel canal collecter les données ? Ce peut être par téléphone, dans la rue ou avec un ordinateur si elles sont déjà dans une base de données, auquel cas l’enquêteur est tout simplement le data analyst… Lorsqu’il s’agit d’un contrôle de qualité sur des produits, les modalités peuvent être définies contractuellement entre un fournisseur et son client. Deuxièmement, la façon de sélectionner les unités statistiques implique un type de sondage (aléatoire simple, stratifié, méthode des quotas…) qui peut impacter le résultat de l’étude et sa possibilité d’être étendue à une population plus large. Il est risqué de choisir la méthode la plus économique.

Pourquoi ? C’est en fait la première question à se poser puisque c’est la finalité de l’étude qui définit le protocole.

Combien ? Quelle doit être la taille de l’échantillon ? Plusieurs impératifs sont à prendre en compte, notamment le coût et le type d’analyse. En effet, un millier de répondants peut suffire pour prévoir convenablement le résultat d’un vote mais ce sera insuffisant pour faire apparaître des liaisons entre des dizaines de caractères.

2- La collecte des données

C’est la mise en œuvre du protocole. Remarquons au passage que le terme de « données » a été très mal choisi puisque rien n’est donné ! Il faut au contraire beaucoup de travail pour réunir le matériau d’une étude !

Voir la collecte des données.

3- L’organisation des données

L’organisation des données récoltées est leur mise en forme sous forme de tableau, de graphique ou de carte.

L’étude s’arrête là si elle est destinée au grand public ou aux professionnels qui souhaitent juste un document signifiant. D’ailleurs, ce que l’on appelle « statistiques » dans le langage courant ne sont que des données chiffrées.

Exemple : des commerciaux accèdent à une carte numérique où les départements sont colorés avec une teinte pastel lorsque l’appétence des consommateurs pour un produit est en-deçà de tel pourcentage et avec une teinte vive lorsque leur appétence est supérieure.

Si l’étude doit être poursuivie, la mise en forme des données donne la possibilité à l’analyste de les ajuster (revoir les classes, traiter les valeurs aberrantes…) et à orienter ses recherches (détection à l’œil de proximités, qu’il faudra ensuite valider).

4- Le traitement des données

Si l’étude porte sur un unique caractère, le traitement consiste à le résumer de la façon la plus synthétique possible : moyenne, écart-type, quartiles, étendue, etc.

En revanche, si l’étude porte sur plusieurs caractères, la même démarche de « résumé » est bien sûr applicable à chaque caractère pris isolément mais l'intérêt principal est de déceler les liens qui existent entre eux. Les nombreuses techniques sont détaillées sur ce site web. L’index statistique vous conduira aux différentes méthodes de régression (employées si certains caractères peuvent en expliquer d’autres) et d’analyse de données (recherches de proximités sans présupposé de causalité).

Statistiques inférentielles

Les statistiques descriptives réalisées sur un échantillon ont vocation à donner des informations sur une population entière. Mais il est inconcevable de simplement reprendre les mêmes paramètres. Ce n’est pas parce que sur dix personnes interrogées il y a un triathlète que 10 % de la population pratique le triathlon.

C’est ici qu’interviennent les probabilités.

En effet, il est plus ou moins probable que des statistiques d’échantillon soient les mêmes que ceux de la population. Ce « plus ou moins probable » est quantifié de façon précise.

Ainsi, lorsqu’une moyenne, une fréquence ou un écart-type est mesuré sur un échantillon, on définit un intervalle de confiance probabilisé dans lequel se situent la moyenne, la proportion ou l’écart-type de la population. Son amplitude dépend de plusieurs facteurs, notamment de la taille de l’échantillon mais aussi du niveau du risque d’erreur accepté a priori. En effet, du moment que la réalisation d’un évènement n’est pas certaine, il faut composer avec un risque d’erreur.

L’inférence statistique permet aussi de comparer les paramètres ou la configuration générale de deux ou plusieurs échantillons entre eux, de déceler les liens qualitatifs qui peuvent les rapprocher, etc.

Si l’étude est réalisée dans les règles de l’art, la démarche probabiliste intervient plusieurs fois. Grâce à des tests d’adéquation, on estime si une loi de probabilité est applicable à la distribution observée. La qualité du test elle-même est probabilisée. Puis l’utilisation de la loi de probabilité retenue autorise l'établissement de zones dans lesquelles se situent probablement les vrais paramètres qui caractérisent la population, comme nous l'avons vu.

L’inférence statistique est un sujet très vaste et ici nous ne le développerons pas davantage. Plusieurs dizaines de pages lui sont consacrées sur ce site. Là encore, nous vous renvoyons à l’index pour l’usage de telle ou telle technique.