Les données

DCP et big data

La « matière première » essentielle du développement économique a longtemps été la force humaine et animale, avant d’être le charbon, le pétrole…

Aujourd’hui et pour quelque temps encore, ce sont les données. Pourquoi ?

 

Enjeux

Au siècle dernier, l’avènement des ordinateurs a facilité les traitements statistiques et donc permis de bien meilleures connaissances dans tous les domaines scientifiques et industriels : météo, ingénierie, sociologie, etc. Et de quel matériau les statistiques ont-elles besoin ? Les données.

Notez au passage quelques subtilités de vocabulaire. Un caractère ou un phénomène observé devient une donnée lorsqu'il est mesuré et collecté puis celle-ci devient une variable lors de son traitement statistique.

À présent nous sommes passés à la vitesse supérieure. Si les techniques statistiques classiques sont toujours fort utiles, d’autres méthodes plus puissantes ont véritablement pris leur essor au début du vingt-et-unième siècle. Ce sont notamment celles de deep learning, particulièrement gourmand en données.

Ainsi, certaines entreprises qui ont construit leur modèle économique sur l’exploitation de données de masse sont devenues en peu de temps parmi les plus puissantes du monde. Nous pensons bien sûr à Google mais aussi aux médias sociaux. Ce qui intéresse ces entreprises, ce sont les données à caractère personnel (DCP).

 

Les DCP et l’anonymisation

Les DCP sont les données qui permettent de reconnaître une personne physique. L’identification peut être directe : nom, numéro de téléphone, numéro de Sécurité sociale, adresse IP… Mais elle est souvent indirecte en ce sens qu’un faisceau d’informations peut conduire à identifier quelqu’un.

Les limites de l’utilisation des DCP figurent dans la loi (en France, la loi informatique et libertés) et dans la règlementation européenne.

https://www.legifrance.gouv.fr/loda/id

Une DCP ne peut être collectée sans consentement. Par exemple, lorsque vous visitez certains sites web, vous devez cliquer sur un bouton « j’accepte » à la fin d’un texte dont la version la plus courte est « en poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies afin de vous proposer des offres et services personnalisés ».

Précisons qu’une donnée n’a pas besoin d’être exploitable dans un fichier pour entrer dans ce cadre juridique. Une simple photo d’une personne identifiable ne peut être stockée ou diffusée sans consentement de l’intéressé (à moins d’être une personnalité considérée comme « publique »).

Afin de ne pas être soumises aux directives européennes, les données peuvent être anonymisées, c’est-à-dire qu’elles ne permettent plus l’identification mais peuvent tout de même servir à établir des statistiques.

L’anonymisation consiste à effacer ou à crypter certains champs d’une base de données (le cryptage permet une ré-indentification éventuelle). Mais l’anonymisation totale, c’est-à-dire la suppression de toutes les informations personnelles, n’est pas toujours souhaitable. Dans le domaine médical, il peut être intéressant de connaître l’âge et le sexe des patients pour faire progresser la science.

L’exemple de Cambridge Analytica est emblématique des dérives liées à l’utilisation des DCP. Cette entreprise définissait le profil psychologique des internautes, d’abord en faisant passer un test de personnalité en ligne puis par des informations glanées sur Facebook. Les internautes, fichés selon leur profil psychologique, recevaient ensuite des messages ciblés pour orienter leurs choix de vote (notamment en faveur de Donald Trump).

 

Natures de données

Les données ouvertes (open data) sont des données publiques, accessibles et gratuites. Il s’agit de données primaires brutes qui peuvent être exploitées par tous et non de statistiques déjà travaillées.

Il existe de nombreux formats de données que nous ne détaillerons pas ici mais fondamentalement, on distingue les données non structurées (des photos, des commentaires...) et les données structurées que l'on peut disposer en tableaux et qui permettent des analyses statistiques. Celles-ci sont quantitatives ou qualitatives.

On distingue aussi les données internes (issues de l'organisation qui les analyse) et les données externes (produites par une organisation extérieure puis récupérées d'une façon ou d'une autre). Par exemple, si un individu ou une organisation utilise Google Analytics pour connaître le comportement des visiteurs de son site web, il a accès à des données internes puisqu'elles lui sont propres, malgré le fait qu'elles ont été collectées et analysées par Google. Au contraire, si des analystes utilisent le web srcaping (recherche automatisée de données sur le web), ils collectent des données externes.

Une autre typologie consiste à distinguer les données en coupe transversale et les temporelles. Si l'on compte tous les navires qu'un pays possède à un moment donné selon leur type, il s'agit de données en coupe transversale. Si l'on étudie l'évolution d'un seul type de navire sur un certain nombre d'années, les données sont temporelles.

navire soviétique

 

Big data

Depuis ces dernières décennies, nous assistons au développement exponentiel du volume d’échanges et des capacités de stockage (développement qui n’est d’ailleurs pas près de ralentir). D’où des volumes considérables de données… susceptibles d’être analysées. Notez que cette « analyse » est le fait d’êtres humains mais aussi d’objets connectés.

https://www.journaldunet.com/solutions/dsi/1424245-le-volume-de-donnees-mondial-sera-multiplie-par-45-entre-2020-et-2035-selon-statista

Ces mégadonnées, plus connues sous l’expression big data, nécessitent des techniques spécifiques de stockage et d’analyse. Elles obéissent à la règle des 3 V.

Volume : la quantité de données est un critère suffisant pour rendre impossible l’utilisation de logiciels statistiques et de bases de données « classiques » interrogeables en SQL. Mais le big data ne repose pas que sur cet aspect quantitatif.

https://www.planetoscope.com/Internet-/1523-informations-publiees-dans-le-monde-sur-le-net-en-gigaoctets-.html

Variété : les données proviennent de diverses sources (ordinateurs, objets connectés...), ne sont pas toujours organisées et prennent les formes les plus variées (adresses IP, photos, parcours géolocalisés, conversations, clics…). Elles doivent donc être structurées de façon automatique dès leur émission pour être exploitées.

Vélocité : une analyse s’effectue presque en temps réel (techniques de data stream mining). Il n’est plus question d’extraire un jeu de données, de le nettoyer de ses immanquables aberrations puis de procéder à une étude statistique mais de l’exploiter avant même un éventuel stockage. Ainsi, une voiture connectée peut, par exemple, s’adapter immédiatement à une situation nouvelle.

On ajoute parfois d’autres V : la véracité (données relativement fiables), la valeur (elles peuvent apporter une quelconque valeur) et parfois la visualisation (par exemple sous forme de couleurs) pour une interprétation plus aisée (mais sous des formes moins immédiates que de banals graphiques statistiques).

Les trois V s'accompagnent de défis propres au big data. Le volume augmente de façon exponentielle et les capacités de stockage doivent s'adapter. La variété pose de gros problèmes techniques sur la façon de stocker et de requêter des données non structurées. La vélocité implique un traitement en continu.

Le big data a fait naître des professions nouvelles, aujourd’hui très recherchées, notamment celles de data scientist, d’ingénieur et d’architecte big data, de business intelligence manager, etc. (vous pensez bien que si des professions sont nouvelles, elles doivent s’intituler en anglais ! Bref, passons).

data

En entreprise, c’est surtout le marketing qui l’utilise pour mieux cibler les prospects et tenir compte des expériences clients. Dans le secteur du crédit, les risques d’impayés sont anticipés. D’autres utilisatrices des mégadonnées sont l’énergie et la recherche médicale. Mais si le big data peut nous aider à économiser de l’énergie, il en est surtout un très gros consommateur !

 

Cycle de vie

Après être collectées, les données sont nettoyées, analysées, présentées... Voir le cycle de vie des données.

 

big data