Dataset / ensembles de données pour R

OK, travailler sur de petits volumes de données, c’est sympa pour se faire la main, comprendre les bases de l’algorithmie sous R.

Mais là où va résider tout l’intérêt de R, ce sera pour traiter des opérations sur de gros datasets. Certes, mais au quotidien, nous ne sommes pas forcément habitués à pouvoir mettre la main sur autant de données.

Pour continuer à s’exercer, nous avons sélectionné 3 sites vous permettant d’accéder librement à des datasets de qualité, propices à vos expérimentations.

Kaggle, la référence chez les datascientists

Le site propose des milliers de datasets et notebooks accessibles librement pour vos recherches. Les datasets peuvent être mis à jour et sujets à différents échanges quant à leur traitement. De plus, si les thématiques sont bien sûr à portée scientifique dans un premier temps, vous en trouverez également autour de l’industrie, du sport ou de l’économie.

Sa particularité ? Proposer aux membres du site des concours, leurs permettant de se confronter à un problème de data analyse : créer un modèle de machine learning prédisant les survivants sur le Titanic, prédire le prix de vente d’une maison en fonction de ses caractéristiques ou encore identifier des nombres en écriture manuscrite...

Les problématiques sont diverses et pourrons vous donner du fil à retordre, mais il s’agit d’une excellente source pour rester à jour sur vos connaissances.

Accéder au site : https://www.kaggle.com/

Data.gov : l’open data américain

Forcément, l’open data est une minie d’or pour les data science. Avec le site data.gov, vous avez accès à une base de données colossale, comportant plusieurs centaines de milliers de datasets répartis dans des thématiques telles que l’agriculture, l’éducation, l’énergie, la santé…

Point bloquant, le format des données, parfois très aléatoire, peut être un frein pour vos traitements. Mais on ne peut que saluer cette initiative permettant d’accéder à une multitude de données brutes issues de l’administration américaine.

Accéder au site : https://www.data.gov

Et la France dans tout ça ? Elle n’est pas en reste, loin de là ! Le site data.gouv.fr met à disposition des milliers de datasets issus des services administratifs de l’État, mais aussi de citoyens ou d’associations. Les thématiques peuvent donc être très diverses : démographie, télécommunications, sport, immobilier...

Concernant les formats de fichiers, ceux-ci restent globalement facilement traitable, les données faisant la part belle à des formats tels que JSON, CSV, voire XLS.

Point intéressant, le site met à disposition des utilisations de ces datasets, qu’il s’agisse d’applications ou d’étude de cas. Une bonne occasion de trouver des applications concrètes à ces projets d’Open Data.

Accéder au site : https://www.data.gouv.fr/fr/

Amusez-vous bien avec l'ensemble de ces datasets à télécharger au format Excel ou CSV et très facilement traitables via la puissance de R !

A propos de l'auteur

David Looses

David Looses est consultant en référencement sénior à l'agence SEO de Lille Aseox. Il est passionné par le langage R et est spécialiste du traitement des données.