Quelques fonctions texte avec tableurs

Nettoyage de chaînes de texte

Il est très fréquent qu’un analyste utilise un tableur pour nettoyer les données brutes de valeurs aberrantes, de doublons, de valeurs manquantes ou, lorsque deux bases de sources différentes sont réunies en une seule, de différences de formats. En effet, la visualisation des données est indispensable pour détecter des cas auquels on n'aurait pas pensé en écrivant une requête SQL ou un programme en Python.

nettoyage

Nous réaliserons quelques opérations habituelles, avec Excel et Google Sheets, pour traiter divers soucis sur des chaînes de texte. Notez qu'en général il existe plusieurs techniques pour parvenir au même résultat.

 

Fonctions

Les nombreuses fonctions texte d’Excel sont accessibles par l’onglet Formules puis par le bouton Texte. Extrait :

menu Excel

Nous ne les étudierons pas toutes ! Il s’agira juste de survoler quelques situations courantes.

 

Concaténation

La concaténation consiste à réunir deux chaînes de texte l'une à la suite de l'autre. Avec Excel vous pouvez utiliser CONCAT ou l’esperluette (&). Pour insérer un blanc, il faut l’encadrer entre guillemets dans la formule.

Exemple :

B2&" "&A2

Avec Google Sheets, la fonction se nomme CONCATENATE mais la formule ci-dessus, avec l’esperluette et éventuellement l’espace, fonctionne également (la fonction CONCAT de Sheets ne permet pas la concaténation de trois éléments et donc l'insertion de l'espace).

L'inverse de la concaténation est la séparation d'une chaîne de texte en deux (ou plus).

 

Changement de format

Pour changer un format numérique en texte, pas besoin de formule. Sélectionnez les cellules puis, dans l’onglet Accueil, cliquez sur Nombre. Vous avez le choix entre deux façons de sélectionner Texte (schéma ci-dessous). Les données numériques, justifiées à droite, se justifieront à gauche et vous saurez que l’opération s’est bien déroulée.

pour format texte

Ceci peut être utile si par exemple vous concaténez une liste dans laquelle les numéros de téléphone sont en format numérique avec une liste d’une autre provenance où ils sont en format texte.

Avec Google Sheets, Format puis Nombre puis Texte brut.

 

Saisie

Lors d’une saisie sur Excel ou Google Sheets, débutez un nombre par une apostrophe pour qu’il soit considéré comme du texte (exemple : ‘123).

 

Ajout de caractères

Restons avec nos numéros de téléphone. Vous souhaitez ajouter un point entre chaque paire de chiffres. Nous supposons que vous vous êtes assuré au préalable par un tri que les numéros, désormais en format texte, comportent tous le même nombre de chiffres.

Nous utiliserons la fonction STXT(). Elle appelle le texte, la position du premier caractère à extraire et le nombre de caractères à extraire (séparation avec des points-virgules, comme toujours avec les fonctions d’Excel).

Ainsi, si dans la cellule A1 se trouve Baudelaire et que vous voulons, pour des raisons mystérieuses, afficher del (soit trois caractères à partir de la quatrième, notre formule est STXT(A1;4;3).

À présent ajoutons nos points aux numéros de téléphone en combinant cette fonction avec la concaténation. Ci-dessous, nous n’avons fait qu’une partie du travail pour une raison de clarté.

Exécution identique avec Google Sheets.

 

Suppression de caractères

Supposons un cas un peu plus délicat. Nous avons une liste de chaînes de texte de longueurs variables mais qui commencent toutes par des caractères inutiles :

caractères inutiles

Notre mission : éliminer les quatre caractères de gauche. Il faut donc retenir les \(n-4\) caractères de droite.

Nous aurons besoin de la fonction qui compte le nombre de caractères NB() et de celle qui sélectionne les caractères de droite DROITE(cellule;nombre de caractères).

La formule ci-dessous contient les deux fonctions imbriquées. Nous aurions pu faire plus simple au prix de trois colonnes au lieu de deux mais cette solution nous semble plus professionnelle.

élimination des caractères inutiles

Formule identique avec Google Sheets.

 

Autres

Suppression des espaces, modification de la casse, suppression ou substitution d'une même chaîne de caractères, extraction de caractères à gauche ou à droite et décompte du nombre de caractères : voir les modifications de texte et la barre de recherche et remplace.