Crawlers

Qu'est qu'un Crawler?

Un crawler est un logiciel qui permet de parcourir les URL d'un site (crawler) en simulant (pour les plus performants) le comportement d'un robot (spider) de moteur de recherche.

De la même manière que les robots des moteurs de recherche, ils ne peuvent découvrir une URL que si celle ci n'est pas orpheline (fait l'objet de liens entrants).

Pourquoi utiliser un crawler ?

Les données collectées par les crawlers permettent d'identifier un grand nombre de problèmes sur un site internet. La data retournée par les crawlers dépend des fonctionnalités du crawler.

Tous n'ont pas le même niveau d'efficacité, ni le même coût !

Si certains se contentent de retourner des informations basiques, d'autres sont de véritables outils d'audit SEO avec parfois même la possibilité de connecter des web services tiers (API).

Les fonctionnalités basiques d'un crawler

On retiendra comme fonctionnalités basiques d'un bon crawler la capacité à retourner les informations suivantes :

URL du site
Typologie des URL
Entête HTTP des pages
Niveau de profondeur des URL
Balise TITLE des URL
Balise description des URL
Balises meta robots
Respect des consignes du fichier robots.txt
Possibilité de paramétrer la vitesse de crawl (sous peine de faire tomber les sites web les plus fragiles)
Export des résultats

Dans la plupart des cas, ces fonctionnalités seront suffisantes pour des diagnostics rapides ou un suivi régulier sur des sites à faible volumétrie dont vous maîtrisez l'architecture.

Les fonctionnalités avancées d'un crawler

Voici une liste non exhaustive des fonctionnalités avancées disponibles sur les crawlers les plus performants.

Rapidité et stabilité du crawler (surtout pour le crawl de sites à forte volumétrie de pages)
Gestion des balises hreflang
Paramétrage des règles d'exclusion de crawl
Respect des canonicals
Title et descriptions en double
Extraction de données custom
Vérification de conformité https sur les URL (contenus non sécurisés)
Cartographie de la structure du site
Câblage des API principales (Google Analytics, Search Console...)
Fonctionnalités avancées d'export
Gestion des user agents
Gestion des proxies
Analyse des chaînes de redirections
Possibilité de crawler qu'une partie (liste d'URL) à chaque analyse

Les fonctionnalités qui manquent à la plupart des crawlers

Voici une liste des fonctionnalités utiles qui pourraient rendre un crawler unique !

Crawler en mode SAAS avec planification des crawls (Cloud Crawler)
Historique des crawl et comparaison de crawls
Système d'alerte en cas de modification survenue sur une URL
Détection avancée des contenus similaires
Web Services API pour collecter les données issues du crawl
Câblage avec solutions d'analyses de logs

Quel crawler SEO choisir ?

Vous l'aurez compris, un bon crawler SEO se distingue par sa capacité à offrir un large éventail de fonctionnalités. Cependant, tous n'offrent pas les mêmes services et tous ne sont pas adaptés à tous les projets.

Pour un petit site, ou pour un débutant, un crawler gratuit peut largement faire l'affaire.

L'abondance de fonctionnalités pouvant parfois dérouter surtout si vous avez juste besoin de connaître les URL en 404, tâche pour laquelle un crawler de base sera parfaitement adapté.

De la même manière, si vous travaillez sur un réseau de sites e-commerce déployés à l'international avec de profondes modifications régulières et parfois non planifiées (voir inattendues...), un crawler en mode SAAS avec crawls périodiques et alertes s'avérera indispensable.

Nous avons sélectionné pour vous une liste des principaux crawlers payants et gratuits adaptés à toutes les situations.