Comparaison de Sitemaps XML & monitoring
La comparaison des crawls est un sujet que vous connaissez certainement.
Aujourd'hui je tenais à vous parler d'un sujet plus original : La comparaison des fichiers sitemaps XML.
L'idée est assez simple.
Tenir un historique des URL d'un fichier sitemap XML à destination des moteurs afin d'analyser son évolution.
En comparant le contenu d'un sitemap entre 2 dates, on peut savoir ce qui a été ajouté et ce qui a été supprimé.
Si le sitemap est bien tenu à jour alors on obtient plus concrètement la liste des URL indexables ajoutées et la liste des URL indexables supprimées du site.
Cela peut être utile dans de nombreux cas de figure.
Voici quelques exemples :
- Votre équipe ajoute des pages sur votre site sans vous prévenir. Vous obtenez une liste de nouvelles URL à optimiser
- Votre catalogue produits évolue en fonction de différents flux ou stock. Vous obtenez la liste des URL supprimées
- Des pages ont été supprimées par erreur. Vous êtes informé
- Votre principal concurrent a travaillé un peu son SEO en ajoutant de nouvelles pages. Vous obtenez la liste
Pour faire cela, il faut crawler le sitemap puis stocker son contenu.
1 mois plus tard, recrawler le sitemap, scrapper le contenu puis le comparer au contenu du crawl initial.
La comparaison permet alors de savoir ce qui a été ajouté et ce qui a été supprimé.
Un sitemap cela peut contenir jusqu'à 500 000 URL et la taille maximale est de 50 Mo. Il faut donc un peu place pour conserver tout cela et un peu de ressources pour lancer la comparaison.
Manuellement c'est évident très ennuyeux à faire pour rester poli.
Bonne nouvelle : - )
Nous avons automatisé tout cela sur Oseox Sitemap.
Concrètement vous n'avez rien à faire à part ajouter l'URL de votre sitemap XML sur l'outil.
Chaque mois, vous recevrez un email contenant un lien vers une archive à télécharger.
Dedans 2 fichiers avec d'un coté les URL ajoutées et de l'autre les URL supprimées.
Simple, rapide, efficace.
Tout ce qu'on aime chez Oseox : MIAM.
PS : L'outil contient aussi bien entendu toujours l'analyse de l'ensemble des entêtes HTTP des URL dans le sitemap et les vérifie chaque jour.