Crawlers

Qu'est qu'un Crawler?

Un crawler est un logiciel qui permet de parcourir les URL d'un site (crawler) en simulant (pour les plus performants) le comportement d'un robot (spider) de moteur de recherche.

De la même manière que les robots des moteurs de recherche, ils ne peuvent découvrir une URL que si celle ci n'est pas orpheline (fait l'objet de liens entrants).

Pourquoi utiliser un crawler ?

Les données collectées par les crawlers permettent d'identifier un grand nombre de problèmes sur un site internet. La data retournée par les crawlers dépend des fonctionnalités du crawler.

Tous n'ont pas le même niveau d'efficacité, ni le même coût !

Si certains se contentent de retourner des informations basiques, d'autres sont de véritables outils d'audit SEO avec parfois même la possibilité de connecter des web services tiers (API).

Les fonctionnalités basiques d'un crawler

On retiendra comme fonctionnalités basiques d'un bon crawler la capacité à retourner les informations suivantes :

  • URL du site
  • Typologie des URL
  • Entête HTTP des pages
  • Niveau de profondeur des URL
  • Balise TITLE des URL
  • Balise description des URL
  • Balises meta robots
  • Respect des consignes du fichier robots.txt
  • Possibilité de paramétrer la vitesse de crawl (sous peine de faire tomber les sites web les plus fragiles)
  • Export des résultats

Dans la plupart des cas, ces fonctionnalités seront suffisantes pour des diagnostics rapides ou un suivi régulier sur des sites à faible volumétrie dont vous maîtrisez l'architecture.

Les fonctionnalités avancées d'un crawler

Voici une liste non exhaustive des fonctionnalités avancées disponibles sur les crawlers les plus performants.

  • Rapidité et stabilité du crawler (surtout pour le crawl de sites à forte volumétrie de pages)
  • Gestion des balises hreflang
  • Paramétrage des règles d'exclusion de crawl
  • Respect des canonicals
  • Title et descriptions en double
  • Extraction de données custom
  • Vérification de conformité https sur les URL (contenus non sécurisés)
  • Cartographie de la structure du site
  • Câblage des API principales (Google Analytics, Search Console...)
  • Fonctionnalités avancées d'export
  • Gestion des user agents
  • Gestion des proxies
  • Analyse des chaînes de redirections
  • Possibilité de crawler qu'une partie (liste d'URL) à chaque analyse

Les fonctionnalités qui manquent à la plupart des crawlers

Voici une liste des fonctionnalités utiles qui pourraient rendre un crawler unique !

  • Crawler en mode SAAS avec planification des crawls (Cloud Crawler)
  • Historique des crawl et comparaison de crawls
  • Système d'alerte en cas de modification survenue sur une URL
  • Détection avancée des contenus similaires
  • Web Services API pour collecter les données issues du crawl
  • Câblage avec solutions d'analyses de logs

Quel crawler SEO choisir ?

Vous l'aurez compris, un bon crawler SEO se distingue par sa capacité à offrir un large éventail de fonctionnalités. Cependant, tous n'offrent pas les mêmes services et tous ne sont pas adaptés à tous les projets.

Pour un petit site, ou pour un débutant, un crawler gratuit peut largement faire l'affaire.

L'abondance de fonctionnalités pouvant parfois dérouter surtout si vous avez juste besoin de connaître les URL en 404, tâche pour laquelle un crawler de base sera parfaitement adapté.

De la même manière, si vous travaillez sur un réseau de sites e-commerce déployés à l'international avec de profondes modifications régulières et parfois non planifiées (voir inattendues...), un crawler en mode SAAS avec crawls périodiques et alertes s'avérera indispensable.

Nous avons sélectionné pour vous une liste des principaux crawlers payants et gratuits adaptés à toutes les situations.

Crawler SEO Oseox Sentinel

screaming-frog

xenu

oncrawl