Découverte de RStudio : installation, présentation...

R : data frames, statistiques, importations d'Excel

Les data frames sont des objets bidimensionnels très utilisées avec R.

Voyons d’abord de quoi il s’agit et comment les manipuler. Ensuite, nous emploierons la fonction summary, bien utile pour résumer un data frame. Pour cela, nous devrons importer des données d'Excel. Une bonne occasion d’ajouter un petit mode d’emploi.

Data frames

Les data frames sont des tables un peu particulières. Ce sont des collections de colonnes, où chacune d’elles est un vecteur (donc de même type : alphabétique, entier…). Mais les types des colonnes peuvent être différents.

Saisie manuelle des données

La liste est saisie par colonnes, c’est-à-dire par vecteurs. Exemple (avec R-Studio) :

script et output

opératrice

Accès

On accède à une colonne avec $ ou avec des crochets. Par exemple :

trio$Nom

On obtient :

"Jim" "Kim" "Lea"

Si l’on saisit trio["Nom"] on obtient :

1 Jim
2 Kim
3 Lea

On accède à une ligne avec son numéro d’index. Par exemple :

accès

On accède à une cellule du tableau en précisant sa ligne puis sa colonne :

trio[2, "Genre"]

Ajouts

On ajoute une colonne de la façon suivante :

trio$QI <- c(98,101,103)

Le modèle d’ajout de ligne est le suivant :

nouvelle_ligne <- data.frame(Nom="Sam", Âge=28, Genre= "M", Taille=173, QI=97)
trio <- rbind(trio, nouvelle_ligne)

Il existe une fonction nrow d’un emploi plus simple mais pas toujours recommandé.

Filtrage

L’opération d’extraction est très simple. Sélectionnons les garçons de moins de 25 ans.

selection <- trio[trio$Âge <= 25 & trio$Genre == "M",]

Ne pas oublier la virgule à la fin !

Note : la syntaxe est plus intuitive avec le package dplyr : filter(trio, Genre == "M", Âge <= 25).

Tri

Les opérations de tri sont beaucoup plus simples avec dyplr qu’avec la version de base dès qu’elles deviennent un peu compliquées (par exemple un tri décroissant sur un critère qualitatif puis décroissant sur un second critère). En l’occurrence, trions notre frame sur le genre (décroissant) puis la taille (croissante).

Nous supposons que dyplr est chargé.

trie <- trio %>% arrange(desc(Genre), Taille)
trie

Importations

Pour importer des données du web en format CSV, voir la page sur les importations.

Pour importer des données depuis Excel, plusieurs packages font l’affaire. Nous en indiquerons un parmi d’autres. Nous utiliserons R-Studio version cloud tandis que le fichier Excel se trouve en local.

Il faut d’abord importer l'extrait de fichier Excel depuis le disque dur. Volet en bas à droite, onglet Files, clic sur Upload. On trouve le fichier avec Parcourir… Sélection de la feuille de calcul et de la zone.

En l’occurrence, nous importons un data frame de douze lignes et trois colonnes : des vaches (numérotées), leur production annuelle de lait et leur poids. Les données ne sont pas reproduites ici mais vous pouvez les visualiser en page de calcul de covariance.

En suivant la procédure ci-dessus, les données apparaissent sur le volet en haut à droite. Le nom de ces données est le nom du fichier Excel.

Statistiques

Avec quatre individus, notre premier exemple était un peu léger pour établir des statistiques. Nous utiliserons donc le second.

La fonction summary() est pratique. Voici ce qu’elle permet d’obtenir :

summary

La première colonne étant composée de caractères (Vache1, Vache2…), il n’y a aucune statisque. En revanche, pour ce qui est de la production et du poids, nous obtenons la valeur minimale, le premier quartile, la médiane, la moyenne, le troisième quartile et enfin le maximum.

vaches data frame