Comment fusionner deux datasets en R ?

Fusionner et modifier 2 dataset avec R

Fusionner un ensemble de dataset est une des opérations de base que l'on peut appliquer à ses ensemble de données. Nous allons aborder les différentes manières de procéder pour y parvenir.

Ajouter des colonnes avec merge()

La fonction merge() est une des fonction de base pour ce type d'opérations. Voici comment elle se décompose :

merge(x, y)

 

Les attributs x et y correspondent ici à chacun de nos dataset. Cette instruction aura pour effet de fusionner les deux datasets en sélectionnant les valeurs identiques identifiées dans un nom de colonne commun. Cela aura également pour effet de supprimer les valeurs qui ne sont pas comprises dans l'un et l'autre des datasets.

Cette fonction est enrichie par une multitude d'attributs qui permettent de fusionner les datasets selon différents paramètres.

by = #Spécifier la valeur de la colonne à fusionner dans les deux datasets
by.x = # Spécifier la valeur de la colonne à fusionner dans le dataset x
by.y = # Spécifier la valeur de la colonne à fusionner dans le dataset y

all = # Conserver toutes les lignes des deux datasets
all.x = # Conserver toutes les lignes du dataset x
all.y = # Conserver toutes les lignes du dataset y

 

Ajouter des lignes avec rbind()

La fonction rbind() est plus simple. L'objectif est ici de fusionner deux datasets en ajoutant les valeurs de chacun. Pour cela, les deux datasets doivent avoir les même variables. Il s'agit d'une fonction idéale pour compléter les valeurs d'un dataset de manière itérative par exemple.

Voici comment elle se décompose:

rbind(x, y)

 

Cette instruction aura donc pour effet d'ajouter les lignes du dataset y au dataset x.

Article précédent
Créer une fonction R
Article suivant
Import CSV avec R

A propos de l'auteur

David Looses

David Looses est consultant en référencement sénior à l'agence SEO de Lille Aseox. Il est passionné par le langage R et est spécialiste du traitement des données.