Analytique de données : protocole d'étude statistique

Protocole d'étude statistique

« Les statistiques sont l’art et la science de collecter, analyser, présenter et interpréter des données » (Anderson, Sweeney, Williams), Statistiques pour l’économie et la gestion (de Boeck) 2007.

Cette belle définition est celle d'un long processus qui permet d’apporter des connaissances dans des domaines particulièrement variés.

Aujourd'hui, les données sont si nombreuses et diverses qu'une étude dépasse souvent le cadre purement statistique. On parle désormais d'analytique de données (data analytics).

Note : les étapes ci-dessous diffèrent légèrement de celles que nous avons reprises en page d'analyse des données qui traite de tous types d'analyses, non limitées aux statistiques.

Première étape : la délimitation

Cette première étape consiste à tracer le périmètre de l’étude. La méthode QQCQCPC n’est pas enseignée dans les cours de statistiques mais plutôt dans ceux de communication. Pourtant, elle s’applique particulièrement bien à un protocole d’étude pour définir le problème à résoudre et contextualiser les données.

Qui ? Il s’agit de définir le champ de l’enquête, c’est-à-dire de délimiter ce que doit être une unité statistique. Sur qui porte l’étude, qui faut-il interroger ? Faut-il se restreindre à une classe d’âge, à une clientèle ? Sonder des individus, des ménages ? Remarquez qu’une étude ne porte pas toujours sur des humains et le « qui ? » peut se référer à des produits soumis à un test de qualité, par exemple.

Quoi ? Que faut-il observer ? On définit précisément les caractères statistiques ainsi que leurs modalités afin d’éviter toute ambiguïté. Ceci suppose la rédaction d’une nomenclature pour les caractères qualitatifs. Lorsque la variable est quantitative on est souvent amené à définir des classes (par exemple on ne demande pas à un répondant quel est son revenu mais dans quelle fourchette il se situe). On peut aussi définir des variables ordinales, notamment pour les études de marché (voir par exemple la page sur les échelles d'Osgood). Enfin, une règle qui va de soi mais qu’il est bon de rappeler : toute valeur prise par un caractère fait partie d’une et une seule modalité.

Où ? Un sondage se conduit dans un périmètre géographique. On préfère réaliser une enquête d’opinion à proximité d’une gare où les profils des individus sont mélangés plutôt que dans un quartier résidentiel. Une enquête peut être restreinte à la zone de chalandise d’un commerce ou au pays entier, par exemple dans le cadre d’élections nationales.

Quand ? La durée au cours de laquelle un sondage est réalisé peut être très courte, pour des raisons budgétaires mais aussi parce que les comportements ou les opinions changent vite. L’enquête peut aussi durer plusieurs décennies (par exemple dans le domaine médical).

Comment ? Deux Questions derrière le « comment ». Premièrement, par quel canal collecter les données ? Ce peut être par téléphone, dans la rue ou avec un ordinateur si elles sont déjà dans une base de données, auquel cas l’enquêteur est tout simplement le data analyst… Lorsqu’il s’agit d’un contrôle de qualité sur des produits, les modalités peuvent être définies contractuellement entre un fournisseur et son client. Deuxièmement, la façon de sélectionner les unités statistiques implique un type de sondage (aléatoire simple, stratifié, méthode des quotas…) qui peut impacter le résultat de l’étude et sa possibilité d’être étendue à une population plus large. Il est risqué de choisir la méthode la plus économique.

Pourquoi ? C’est en fait la première question à se poser puisque c’est la finalité de l’étude qui définit le protocole.

Combien ? Quelle doit être la taille de l’échantillon ? Plusieurs impératifs sont à prendre en compte, notamment le coût et le type d’analyse. En effet, un millier de répondants peut suffire pour prévoir convenablement le résultat d’un vote mais ce sera insuffisant pour faire apparaître des liaisons entre des dizaines de caractères.

Ainsi les attentes du client ou de la hiérarchie sont bien comprises. Parfois elles sont floues, parfois des divergences apparaissent au sein de l'équipe qui commande l'étude et il faut savoir gérer les conflits. Ensuite l'analyste prend du recul pour savoir de quoi il aura besoin et passe à la deuxième étape.

Deuxième étape : la collecte des données

Les données peuvent être collectées de différentes façons. Elles peuvent aussi apporter des surprises qui remettent en cause certaines réponses de l'étape précédente.

Voir la collecte des données.

Troisième étape : l'organisation des données

Une fois les données collectées il faut presque toujours les nettoyer (traitement des doublons, des valeurs manquantes, des valeurs aberrantes...). C'est une partie très chronophage de l'étude, mais pas inintéressante.

traitement des données

L’organisation des données se poursuit avec leur mise en forme sous forme de tableau, de graphique ou de carte.

L’étude s’arrête là si elle est destinée au grand public ou aux professionnels qui souhaitent juste un document signifiant (rendez-vous directement en cinquième étape !). D’ailleurs, ce que l’on appelle « statistiques » dans le langage courant ne sont que des données chiffrées.

Exemple : des commerciaux accèdent à une carte numérique où les départements sont colorés avec une teinte pastel lorsque l’appétence des consommateurs pour un produit est en-deçà de tel pourcentage et avec une teinte vive lorsque leur appétence est supérieure.

Si l’étude doit être poursuivie, la mise en forme des données donne la possibilité à l’analyste de les ajuster (revoir les classes, traiter les valeurs aberrantes…) et à orienter ses recherches (détection à l’œil de proximités, qu’il faudra ensuite valider).

Quatrièmpe étape : l'analyse des données

Si l’étude porte sur un unique caractère, l'analyse consiste à le résumer de la façon la plus synthétique possible : moyenne, écart-type, quartiles, étendue, etc.

En revanche, si elle porte sur plusieurs caractères, la même démarche de « résumé » est non seulement applicable à chaque caractère pris isolément mais surtout à déceler les liens qui existent entre eux. De nombreuses techniques pour le faire sont détaillées sur ce site web. L’index statistique vous conduira aux différentes méthodes de régression (employées si certains caractères peuvent en expliquer d’autres) et d’analyse de données (recherches de proximités sans présupposé de causalité).

Les statistiques descriptives réalisées sur un échantillon ont vocation à donner des informations sur une population entière. Mais il est inconcevable de simplement reprendre les mêmes paramètres. Ce n’est pas parce que sur dix personnes interrogées il y a un triathlète que \(10\%\) de la population pratique le triathlon.

triathlon

C’est ici qu’interviennent les probabilités.

En effet, il est plus ou moins probable que des statistiques d’échantillon soient les mêmes que ceux de la population. Ce « plus ou moins probable » est quantifié.

Ainsi, lorsqu’une moyenne, une fréquence ou un écart-type est mesuré sur un échantillon, on définit un intervalle de confiance probabilisé dans lequel se situent la moyenne, la proportion ou l’écart-type de la population. Son amplitude dépend de plusieurs facteurs, notamment de la taille de l’échantillon mais aussi du niveau du risque d’erreur accepté a priori. En effet, du moment que la réalisation d’un évènement n’est pas certaine, il faut composer avec un risque que, sur la population, le paramètre statistique ne se trouve pas dans la fourchette déterminée par l'échantillon..

L’inférence statistique permet aussi de comparer les paramètres ou la configuration générale de deux ou plusieurs échantillons entre eux, de déceler les liens qualitatifs qui peuvent les rapprocher, etc.

Si l’étude est réalisée dans les règles de l’art, la démarche probabiliste intervient plusieurs fois. Grâce à des tests d’adéquation, on estime si une loi de probabilité est applicable à la distribution observée. La qualité du test elle-même est probabilisée. Puis l’utilisation de la loi de probabilité retenue autorise l'établissement de zones dans lesquelles se situent probablement les vrais paramètres qui caractérisent la population, comme nous l'avons vu.

L’inférence statistique est un sujet très vaste et nous ne le développerons pas davantage. Plusieurs dizaines de pages lui sont consacrées sur ce site. Là encore, nous vous renvoyons à l’index pour l’usage de telle ou telle technique.

Cinquième étape : le partage des informations

Après avoir été traitées par l'analyste, les données sont devenues des informations comprises et pertinentes par les commanditaires et d'une façon générale par tout intéressé. Leur présentation est tout un art !

Une sixième étape est celle de l'action, mais nous considérerons qu'elle ne fait pas partie de l'étude stricto sensu.

conclusion d'étude