Vie des données et types d'analyses
Les données ont un cycle de vie, à l’instar des êtres vivants, des produits et des entreprises (voir le cycle de vie de l’entreprise). Et certaines périodes de cette existence sont trépidantes tandis que d’autres sont d’une ennuyeuse tristesse.
La vie des données
- Génération : préalablement à l’existence des données, il faut définir ce que l’on collectera et comment on procèdera. Illustrons. Une direction du marketing souhaite connaître l’opinion de prospects sur un concept de produit. Elle prépare les modalités d’une enquête. Les choix portent sur les informations à obtenir, la réalisation du questionnaire, le type de sondage (quotas, aléatoire, stratifié…). Autre exemple : c’est durant la seconde guerre mondiale qu’il a été décidé de substituer des stations météorologiques automatiques au réseau d’observateurs mis en place en 1855. Par la suite, les conditions d’obtention des données météo ont été de plus en plus fiabilisées et normalisées.
- Collecte : à présent que les données à acquérir sont définies, il faut les capter. Comme nous nous plaçons du point de vue de la donnée et non de leur analyse, elles sont primaires. La collecte peut être automatisée (exemple des stations météorologiques), issue d’entretiens, de sondages avec saisie manuelle des réponses, d’enquêtes CAWI, etc. Souvent, une intervention humaine minimale est requise.
- Gestion : les données doivent ensuite être stockées. Parfois un disque dur suffit mais souvent elles font partie d'une base de données volumineuse et sauvegardée sur le cloud ou un serveur interne. Leur stockage s’accompagne de mesures de sécurité pour limiter les risques de corruption de leur intégrité. D’ailleurs il est très recommandé de conserver deux jeux dans deux lieux différents. Elles peuvent aussi être libres d’accès (voir l’open data).
Un lac de données ou data lake est un espace de stockage de données hétérogènes, provenant de différentes sources, brutes ou très peu transformées. Elles ne sont pas organisées selon le modèle relationnel classique. On peut y trouver de tout : photos, vidéos, fichiers PDF, audio, e-mails, des données semi-structurées (fichiers CSV…) et même… des données structurées. Vous l’avez deviné, nous sommes dans le domaine du big data et, souvent, du machine learning. Les données structurées sont quant à elles stockées dans un datawarehouse. - Analyse : les types d’analyse sont d’une extrême diversité. Nous serions bien incapables d’en établir une liste détaillée mais quelques grandes familles se détachent (voir plus bas). Voir aussi la démarche d'une étude statistique.
Cette étape peut prendre la forme d'un machine learning ou d'une analyse classique. Cette dernière comporte plusieurs phases, détaillées en page d'analyse des données.
Selon les études, l’exploitation des données peut s’accompagner ou non d’une évaluation des résultats. Par exemple si elle conduit à un modèle mathématique ou à un apprentissage automatique. - Partage : après analyse, les données ont désormais du sens. Les informations obtenues sont communiquées en vue de comprendre un phénomène ou d'aider aux décisions. Des tableaux synthétiques et des indicateurs statistiques sont des informations communiquées sous forme de rapport, de présentation orale, de tableau de bord… Leur visualisation sous forme de graphiques est un incontournable.
Le partage peut prendre d’autres formes qu’une présentation. Par exemple, un scoring issu de l’intelligence artificielle s’appuie sur des données d’apprentissage qui « vivent » pendant plusieurs années pour aider à la décision. Mais le plus important est ce que les données ont permis de réaliser et qui leur survit : opportunités saisies, décisions stratégiques éclairées, progrès scientifiques… - Archivage : les données sont ensuite archivées. À ce stade, elles ont été utilisées mais peuvent resservir pour une raison ou une autre. Souvent, les utilisateurs n’y ont accès qu’après une demande spéciale à la DSI. Leur support n’a pas besoin d’être performant ; il doit surtout être peu coûteux à entretenir.
Nous distingons l'archivage de données travaillées des backups souvent réalisés quotidiennement, dont le but est de limiter les impacts des pannes, des sinistres et des cyberattaques. - Destruction : les durées d’archivage sont parfois imposées par des textes légaux ou réglementaires. Mais la destruction des données peut aussi être décidée en raison du coût du stockage ou parce qu’elles sont devenues inutiles. Au contraire, certaines données scientifiques ou sur le patrimoine ont vocation à ne jamais être supprimées. Quant aux données sensibles, elles ne sont pas simplement effacées mais détruites avec leur support physique.
Les types d’analyse de données
En entreprise, il s’agit de faire parler les données passées et présentes pour préparer l’avenir. En milieu universitaire, l’objectif est plus souvent de comprendre, plutôt que de prévoir.
- Les statistiques descriptives permettent d’observer des données chiffrées avec une certaine hauteur. Les plus simples sont les calculs de moyenne, de médiane… Plusieurs types de graphiques remplissent aussi cette fonction de présentation synthétique de l’existant : des camemberts pour visualiser des proportions, des courbes pour montrer une évolution, etc. Les graphiques permettent aussi de comparer des séries numériques entre elles (barres superposées, courbes…). Typiquement, la construction d’un tableau de bord entre dans cette catégorie.
- Lorsque l’analyse porte sur une seule variable ou plusieurs considérées séparément, on parle d’étude univariée. Lorsque ce sont les liens entre deux variables que l’on souhaite montrer, il s’agit d’une analyse bivariée. Exemple : une régression, souvent accompagnée d’un calcul de coefficient de corrélation simple. Le nuage de points est le graphique le plus représentatif de ce type d’analyse mais il en existe d’autres. L’étude peut aussi porter sur trois variables ou plus. Elle est alors multivariée. Exemple : les problématiques de classification.
- L’analyse diagnostique doit permettre à un data scientist de comprendre les causes d’un phénomène observé grâce aux statistiques descriptives, en particulier bivariées et multivariées. Les plans d’expérience sont un protocole scientifique de recherche des causes.
- L’analyse de texte ne s’appuie pas sur des données chiffrées, comme son nom l’indique. Mais ce n’est pas non plus ce qui vous a occupé au lycée en cours de français ! En entreprise, les textes ne sont pas ceux des grands auteurs mais des e-mails, des avis de consommateurs, des chats... Le but est de détacher des informations à partir d’un grand nombre de données textuelles par un logiciel de text mining. Ce type de logiciel fonctionne avec des techniques d'intelligence artificielle (deep learning et NLP).
- L’analyse inférentielle repose sur une famille de techniques statistiques basées sur les probabilités. Elle s’appuie sur des échantillons et infère les résultats à toute une population. Par exemple, on sonde un échantillon sur ses intentions de vote et aussitôt le scrutin terminé, le sondeur donne une estimation des résultats de l’élection. Le but n’est plus de décrire mais de prévoir (voir les statistiques inférentielles).
- Contrairement à la précédente, l’analyse prédictive consiste à prédire une évolution et non à prévoir un évènement aléatoire. Elle extrapole à partir d’informations du passé. Les techniques les plus simples s’appuient sur une seule série chronologique mais certains domaines (l’économétrie, par exemple) recourent à des modèles mathématiques très complexes.
- L’analyse prescriptive va plus loin que les précédentes puisqu’elle apporte des préconisations.