Analyse de logs

Analyseurs de logs

L'analyse de logs serveurs est la collecte et l'interprétation des données des logs. Ces fichiers listes chronologiquement l'ensemble des événements exécuté sur un serveur.

On distingue deux principaux types de formats pour les fichiers logs :

  • Format common : le format le moins complet mais réglementaire
  • Format combined : le format qui nous intéresse car comportant plusieurs données utiles pour le SEO

Nous vous préconisons d'utiliser le format de logs combined.

Pourquoi analyser ses logs ?

L'analyse des logs offre la particularité de détailler avec précision l'ensemble des événements qui ont lieu sur votre serveur. C'est en quelque sorte la boîte noire d'un site web.

Vous y trouverez toutes les informations relatives aux événements réalisés par les moteurs de recherche. Cela constitue le plus court chemin entre vous (votre site) et le comportement des robots des moteurs de recherche.

Menée de front avec un crawler de site efficace, vous pourrez identifier un grand nombre de facteurs bloquants pour votre référencement.

Il est encore une fois important de préciser le mode de fonctionnement d'un moteur de recherche pour bien saisir les informations utiles lors de l'analyse de vos logs. Le journal des logs correspond à la première action réalisée par un moteur de recherche : le crawl.

Sans crawl, pas d'indexation possible et encore moins de positions aux sein des résultats de recherche.

L'analyse des logs permet donc de vérifier le bon fonctionnement du crawl de votre site par les moteurs de recherche et par conséquent d'identifier d'éventuels facteurs bloquants.

Quelles données analyser en priorité dans ses logs ?

Premièrement il vous faudra vous procurer les logs au format combined sur une période représentative, de 30 à 60 jours.

La seconde étape consiste à trier les logs par user agent. Inutile de se focaliser sur les robots et crawlers qui n'ont aucun impact sur le référencement. En règle générale, on se contente des logs avec pour user agent Googlebot.

Status code non conformes : en règle générale, on admet seulement les status codes suivants : 200, 304, 301. Tous les autres status code doivent être corrigés (404, 403...), Googlebot doit rencontrer le moins d'URL possibles en erreur.

Taux de crawl : est-ce que toutes les URL de mon site sont crawlées ? Comparez les URL d'un crawler front avec les URL crawlées par Googlebot.

Ce ratio doit être le plus élevé possible. Un ratio trop bas est souvent la cause de problèmes techniques sur le site. Il faut analyser en profondeur la typologie des URL qui ne font pas l'objet de crawl.

Il y a comme toujours de nombreuses causes possibles :

  • Blocage des URL dans le fichier robots.txt
  • URL orphelines
  • Mauvaise meta robots
  • Erreur sur une balise canonical
  • ...

A l'inverse, il peut arriver que Googlebot crawle plus d'URL que vous en avez répertorié sur votre site. Analysez en détail ces URL, il y a là aussi de nombreuses causes possibles :

  • Anciennes URL de précédentes versions du site
  • Spider trap
  • Anciennes URL liée à un piratage du site
  • Modifications de l'architecture du site

Lorsque vous avez identifié et corrigé l'ensemble de ces actions basiques, vous avez déjà fait une grande partie du travail.

Le temps consacré à l'analyse de logs doit être proportionnel à la volumétrie du site.

Ainsi, plus le site comporte de pages, et plus il sera intéressant d'affiner les analyses et statistiques de crawl (fréquence de crawl, nombre de pages crawlées par jour) pour maîtriser le budget crawl.

Pour un site de quelques centaines de pages, une analyse de logs très poussée n'a que très peu de chance d'améliorer les performances. Un simple crawler front sera même suffisant dans la plupart des cas.

Il y a souvent d'autres leviers à activer en priorité, comme les contenus par exemple 🙂

Voici une sélection d'outils SEO dédiés à l'analyse de logs :

screaming frog

oncrawl

Botify