Les données insuffisantes et erronées

Problèmes sur l'exhaustivité des données

« Chef, bonne nouvelle ! \(100\%\) de vos collaborateurs sont heureux de travailler pour vous !
— Vous les avez tous interrogé ? ils sont une centaine !
— Oui, mais je suis le seul à avoir répondu ! »

L’une des premières étapes d’une analyse de données est la vérification que celles-ci correspondent bien à l’objet de l’étude mais aussi qu’elles sont fiables et en quantité suffisante. La vérification de l’exhaustivité des données est préalable à leur nettoyage.

Cette vérification, ou cette restauration, s’appuie sur le bon sens et la connaissance du sujet à traiter ; il ne faut pas prendre les techniques décrites ci-dessous comme des modes d’emploi incontournables.

 

Données proxy

Le pire cas est celui où il n’existe aucune donnée. C'est ce qu'on appelle un cold start problem. Qu’à cela ne tienne, soit on prend le temps d’en collecter, soit c’est impossible et on se tourne vers des données proxy.

Les données proxy, qui deviennent variables proxy lors de leur traitement statistique, ne sont pas celles qui entrent directement dans l’objet de l’analyse ; mais elles sont suffisamment corrélées avec une donnée inaccessible pour qu’une substitution devienne une solution de contournement pas trop gênante.

Supposons un cinéma qui s’apprête à diffuser un film. Les dirigeants souhaitent connaître une estimation de la recette que celui-ci apportera durant sa diffusion. Ils reportent le nombre d’entrées d’un film le plus similaire possible et ils adaptent les chiffres selon la saison et peut-être la conjoncture économique (le but n’est pas de reproduire tel quel ce qui a déjà été observé). Le prix unitaire du ticket peut lui aussi être ajusté pour tenir compte de périodes de promotion de type Printemps du cinéma.

cinéma

Parfois une donnée proxy offre l’avantage d’être quantitative et de remplacer une qualitative, plus difficile à évaluer.

Ainsi, en SES, la technique de la variable proxy est souvent employée. Ce peut être le PIB par habitant qui remplace la notion de qualité de vie dans un pays. De même, l’intérêt d’une population pour un sujet donné peut être approché par le nombre de clics sur quelques mots, enregistrés par les moteurs de recherche. Etc.

L’un des grands avantages de l’open data est d’offrir des données pour tout analyste qui a besoin d’une variable proxy.

Il n’en reste pas moins que c’est une technique risquée qui peut reposer sur des raccourcis mentaux et non sur des études de corrélation fiables. D’où un risque de biais de confirmation.

 

Données insuffisantes

Si l’on met de côté quelques tests peu usités, les techniques de statistiques inférentielles reposent sur la loi des grands nombres. Une estimation sur une population n’est fiable que si la taille de l’échantillon qui a servi à l’établir est suffisante.

Idem pour les séries chronologiques. Une prévision s’appuie sur une profondeur d’historique significative, surtout s’il existe une saisonnalité.

D’où une impossibilité de généraliser ce qui a été observé sur des échantillons trop petits.

Là aussi, une alternative s’offre à l’analyste : soit le recours à une donnée proxy, soit un recadrage de l’étude.

Les données proxy ne remplacent pas les collectées mais les complètent. Supposons un fabricant de soda qui met un produit sur le marché. Un an plus tard, il cherche à connaître la courbe de vie de son produit. Il remarque que la phase de démarrage présente une configuration proche de celle d’un soda plus ancien mais sur un territoire différent. Il utilise donc les données de vente de celui-ci et les extrapole au nouveau produit plutôt que bâtir un modèle mathématique compliqué et périlleux à partir des seules données du nouveau soda. Mais c’est bien à partir des ventes de ce dernier qu’il établit sa prévision : il peut appliquer un coefficient aux données anciennes pour tenir compte de la taille de marché qui n’est plus la même.

Autre exemple de données proxy. Une chaîne de salles de sport souhaite connaître la superficie la plus rentable en vue de l’ouverture de futures salles. Pour cela, elle étudie les ratios de ses propres salles mais celles-ci ne sont pas suffisamment nombreuses, d’autant que plusieurs paramètres entrent en jeu (densité de population, présence de concurrents…). Partant du principe que la problématique est la même pour l’ensemble du secteur, cette chaîne récupère les données de concurrents pour les ajouter aux siennes.

soulevé de terre

Le recadrage de l’étude suppose quant à lui l’accord de son commanditaire.

Soit une étude réalisée sur l’ensemble du territoire. Les remontées d’une région sont trop rares. Le plus simple est de préciser que le périmètre de l’étude n’englobe pas cette région.

Il est fréquent qu’en dépit d’échantillons faibles une étude soit tout de même conduite, en particulier dans le domaine médical. D’où l’importance de méta-analyses qui synthétisent plusieurs analyses indépendantes. Ce type d’étude soulève cependant des problèmes de cohérence de définitions et de qualité d’échantillonnage statistiquement douteux.

D’une façon générale, la recherche d’un autre jeu de données peut être une solution. Là aussi, l’open data présente parfois une bonne solution.

Enfin, il arrive qu’une seule donnée soit recherchée et qu’elle ne figure pas dans l’échantillon. Le problème n’est plus statistique. C’est juste la collecte qui a été insuffisante. Par exemple, pour qu’une géolocalisation par téléphone mobile fournisse une ligne de code facilement exploitable, il vaut mieux capter les signaux des satellites pendant plusieurs secondes plutôt qu’une seule.

 

Données manquantes

Distinguons les données insuffisantes des manquantes. Ces dernières devraient normalement se trouver dans la base mais elles manquent à l’appel. Par exemple, des données enregistrées en temps réel n’ont pas pu l’être pendant une panne du système informatique. Selon les cas, soit on n'en tient pas compte, soit on les remplace.

 

Données erronées

Les erreurs de données sont d’autant plus graves qu’elles passent inaperçues. Bien entendu, un traitement réalisé à partir de données fausses produit des conclusions erronées et conduit à de mauvaises décisions.

Sans être fausses, il arrive qu’elles soient inutiles parce que le besoin n’a pas été exprimé correctement. D’où une perte de temps puisqu’il faut recommencer à zéro. Exemple : un manageur demande à ses collaborateurs de réaliser une étude en oubliant de préciser que c’est l’année précédente qui doit être analysée. Or, ces malheureux étudient l’année en cours.

Si les erreurs sont dues à l’analyste qui par exemple a oublié d’éliminer les doublons (ah le benêt !), la correction reste possible. Là encore, seule une perte de temps est à déplorer.

Si les données fausses sont identifiées et qu’il est impossible de les corriger, le mieux est de les éliminer de l’analyse. On peut aussi les considérer comme des données manquantes et estimer les valeurs inconnues.

Mais le plus intéressant est de se demander pourquoi elles sont fausses. Leur correction peut nécessiter des recherches qui visent à ce que ces erreurs ne se reproduisent plus. De l’enquêteur qui bâcle son travail en saisissant n’importe quoi à l’appareil de mesure défectueux, les raisons sont infinies. C’est pourquoi les feedbacks vers la collecte sont un « sous-produit » de l’analyse particulièrement instructif (sans parler de certaines études de qualité dont le but est précisément de trouver des anomalies).

Parmi les sources d’erreurs fréquentes figurent aussi les données obsolètes. Ce peut être un périmètre d’échantillon ou une profondeur d’historique trop importants. Ce sont aussi des données qui n’ont pas été mises à jour. Cette dernière cause est délicate à gérer si l’actualisation réclame un travail trop important par rapport au gain que procure l’étude. Supposons une base de données de plusieurs centaines de PME. Elles incluent le nom des responsables de la comptabilité. Il est inenvisageable d’appeler toutes les PME chaque mois (voire plus souvent) pour s’assurer que les personnes sont toujours en poste et que la base de données est bien exacte !

 

Données incomplètes

Les données insuffisantes étaient dues à un effectif trop faible. Elles sont incomplètes lorsqu’elles figurent dans la base mais certains champs essentiels manquent. Pour leur traitement, revoir les données erronées et la page (certes un peu technique) qui traite des données incomplètes.

 

homme proxy