La structuration des données

Tables de données

Ce qui vous attend ici est une initiation à la structuration des données, matière première de tout traitement numérique. Une initiation qui peut s’insérer dans un cours de SNT (classe de seconde).

 

Table des données

Les données sont des éléments qui décrivent des objets (des personnes, des concepts…).

Il existe des données structurées (qualitatives ou quantitatives) et des données non structurées (textes longs, images, sons, vidéos).

données

Les données structurées sont stockées dans des tables, pouvant être représentées sous forme de tableaux parfois gigantesques, où la première ligne est un intitulé qui décrit le format des lignes suivantes.

Ces intitulés sont les noms des champs (ou critères).

Un ensemble de données ayant la même description est appelé série de données ou collection.

Une donnée peut être élémentaire (caractéristique de base) ou non (par exemple une adresse qui concatène un numéro, une rue, un code postal, une commune… ou encore un pourcentage calculé à partir de deux valeurs élémentaires).

Elle se distingue aussi selon son type : nombre, date, texte, son, image… Le descripteur définit les caractéristiques d’une donnée. Par exemple, une adresse peut être une chaîne de 30 caractères. Notez que dans cet exemple le numéro et le code postal ne sont pas considérés comme des nombres (on ne fait aucun calcul dessus).

Ci-dessous apparaissent les menus et sous-menus d’Access, logiciel de gestion de base de données de Microsoft, lors d’une création de table. La capture d’écran vous donne un aperçu des différents formats que peut prendre une donnée.

menus

Une base de données relationnelle est un ensemble de tables liées entre elles.

Voici par exemple deux extraits de tables qui peuvent être reliées, formant ainsi une base de données :

Collection Services

Service Code Budget
Cardiologie CA00121 450 000
Chirurgie CH00245 800 000
Urgences UR77770 250 000

Collection Commandes

Code produit Intitulé produit Code fournisseur Montant Code service
XXCF45V Blouse DES541 522,00 CH00245
CCDD89O Seringue 10 ml KKJ888 200,00 OB18771
SSCW66L Drap d’examen DES541 230,00 UR77770

Par exemple, on remarque que le service de chirurgie (code CH00245) a passé une commande de blouses pour 522 €.

 

Formats de fichiers

Ne pas confondre avec les formats de fichiers avec les formats de données définis par les descripteurs (numérique, date…).

Un fichier est enregistré selon un format déterminé (CSV, XML, JSON…). Si un type de donnée réclame un format particulier (son, photo, dessin, vidéo…), il se trouve dans un fichier distinct mais une clé permet de faire le lien avec le reste de la collection.

Le format texte CSV (Comma Separated Values) est facile à gérer. Comme son nom l’indique, les valeurs sont séparées par des virgules ou des points-virgules. Dans les pays anglo-saxons, le séparateur décimal étant le point, le séparateur de champs est la virgule.

Voici par exemple un tout petit fichier CSV avec points-virgules :

CSV

Une ouverture de ce fichier avec Excel rend sa lecture plus aisée.

Excel

Aujourd’hui, les données que l’on peut obtenir par Internet de la part des grands organismes (INSEE, SNCF…) ne disponibles en en XLSX, c’est-à-dire en format Excel. Vous pouvez aussi trouver de grands fichiers CSV en open data si vous souhaitez vous entraîner à les manipuler.

 

table de données