OnCrawl : crawleur et analyseur de logs

architecture oncrawal

OnCrawl est un crawler SEO et analyseur de logs édité par la startup bordelaise Cogniteev.

L’outil parcourt l’ensemble des pages d’un site à la manière de Google pour en relever le code et le contenu afin d’identifier les points favorables ou défavorables au passage des moteurs de recherche et à l’indexation.

Il permet ainsi de faire un état des lieux de la santé d’un site et de mettre en place des recommandations comme des actions correctives.

Né il y a presque 3 ans suite à un consortium industriel avec Cdiscount, l’outil a été pensé avec les contraintes et exigences SEO du site de e-commerce numéro 1 en France. OnCrawl a souhaité rendre accessible des technologies Big Data et Sémantique autrefois réservées aux grands acteurs.

C'est une des raisons pour laquelle la solution a rendu Open Source une partie de ses développements, notamment sur la partie analyse de logs.

Bien plus qu’un simple crawler, OnCrawl croise une multitude de set de données afin de comprendre l’impact du trafic, des backlinks ou encore des logs sur le taux de crawl ou les pages génératrices de trafic SEO par exemple.

Principalement à destinations des sites e-commerces et médias, OnCrawl a pour vocation de faciliter la vie des SEO en mettant à disposition des tableaux de bords compréhensibles, actionnables et fiables.

OnCrawl : un outil dédié aux problématiques SEO actuelles

OnCrawl permet de couvrir un ensemble de problématiques inhérentes au SEO

Du contenu au performance en passant par l’architecture ou le comportement de Google, la solution offre plus de 450 indicateurs pour surveiller au quotidien l’évolution et les performances d’un site web.

Crawlabilité et indexation

Connaître et comprendre le comportement de Google est essentiel pour obtenir une vision précise des pages visitées et considérées comme utiles.

OnCrawl permet de détecter les pages nouvellement crawlées et de comprendre également comment le budget est dépensé et sur quelles pages.

Les redirections ou erreurs 4xx ont également une influence sur le taux de crawl. OnCrawl permet d’analyser l’accessibilité de ces pages et de comprendre comment les robots considèrent chaque partie d’un site web au regard de l’architecture et de la profondeur, du contenu ou de la popularité interne.

De plus, en fonction de la taille d’un site web et de son sujet, le comportement du Googlebot sera différent. OnCrawl permet d’identifier les facteurs de classement les plus susceptibles d’influencer la crawlabilité.

architecture oncrawal

Les pages orphelines

OnCrawl permet également d’identifier les pages orphelines, ou en d’autres termes, toutes les pages qui ne sont pas reliées à la structure d’un site web, leur nombre, leur consommation du budget de crawl et le taux de pages orphelines actives.

L’outil repère où se situe la source du problème mais également si ces pages orphelines reçoivent des backlinks, du trafic organique ou si elles se positionnent.

L’utilisateur est ainsi apte à prendre les bonnes décisions grâce aux analyses croisées de logs et de crawl.

Le budget de crawl

OnCrawl offre également la possibilité de surveiller le budget de crawl de Google et de comprendre l’influence de celui-ci sur les performances SEO.

La solution permet de confronter n’importe quel facteurs SEO on-page au comportement de Google et son ratio de crawl.

Ainsi, l’utilisateur est capable de comprendre comment Google dépense ses ressources lors du crawl des pages et s’il le dédie aux pages les plus importantes.

Les analyses croisées permettent également de mesurer le ratio de crawl par segment ou profondeur, mais également d’anticiper l’influence d’un facteur sur le comportement du robot.

Comportement du crawl

La qualité du contenu

L’approche sémantique d’OnCrawl est au coeur de la solution en offrant des tableaux de bord dédiés à la qualité du contenu.

De nombreuses optimisations comme les données structurées, le ratio de texte/code ou encore les données meta des images peuvent aider à améliorer l’impact du contenu sur le SEO.

OnCrawl a dédié plus de 60 indicateurs au contenu et se concentre plus particulièrement sur l’influence des optimisations de contenu sur les classements, les pages trop minces en contenu, les séquences de mots, etc.

OnCrawl prend également en considération les évolutions mobiles et les enjeux internationaux par le suivi des intégrations AMP, de la payload ou de balises hreflang notamment.

Le contenu dupliqué ou similaire

OnCrawl a été la première solution SEO à proposer un détecteur de contenu similaire interne.

Les analyses offrent un treemap de similarités permettant d’explorer les groupes de pages avec un ratio de similarités et d’identifier la source du problème et les zones les plus critiques.

L’approche linguistique d’OnCrawl permet de filtrer par ratio de similarité, de gérer les canoniques ou de déterminer un seuil critique en fonction de la taille du site.

Fréquence de crawl par profondeur

Mesurer la performance

Les performances en termes de temps de chargement ont un réel impact à la fois sur l’expérience utilisateur mais également sur les positions.L’enjeu étant de déterminer l’influence réelle sur les pages.

OnCrawl a non seulement construit des rapports de crawl dédiés mais aussi des analyses combinées afin de donner une vision fidèle des points négatifs en terme de performance : poids et temps de chargement par page, profondeur ou groupes mais également l’influence des performances sur le ratio de crawl : impact du temps de chargement sur le comportement de l’utilisateur, temps au premier octet d’une page active, etc.

L’architecture

OnCrawl permet d’analyser la structure de maillage interne d’un site web et de comprendre comment se comportent les liens internes et externes en termes de jus de lien, de pages prioritaires, d’accessibilité ou encore de boucles de redirections.

OnCrawl a développé l’Inrank, une sorte de pagerank interne, qui permet de mesurer comment la popularité se diffuse entre les pages.

Il permet d’évaluer la popularité de chacune des parties d’un site web, d’obtenir une compréhension parfaite du maillage interne ou d’améliorer la popularité interne avec précision.

Il est important de déterminer comment la popularité interne circule en fonction de la profondeur d’un site et son impact sur le ratio et la fréquence de crawl. OnCrawl permet ainsi de déterminer l’influence de l’architecture sur vos classements.

Le trafic SEO analysé par OnCrawl

OnCrawl analyse le trafic organique d’un site web et permet de comprendre comment celui-ci est distribué au sein des groupes de page, de rassembler les métriques SEO des pages actives et de mettre en place les bonnes configurations afin d’obtenir des pages qui génèrent des visites SEO.

Les analyses SEO OnCrawl permettent également de comprendre l’impact du comportement des utilisateurs sur les classements. Les métriques d’usage sont en effet prises en compte depuis la première mise à jour Panda.

Avec OnCrawl, il est possible de mesurer l’influence de la payload ou de la taille du contenu sur le taux de rebond ou le temps passé sur la page, de déterminer un seuil de taux de rebond pour éviter toute pénalité Panda et de comprendre comment les usages varient en fonction de toutes les optimisations de contenu.

Une solution avancée et performante

OnCrawl repose sur un socle technologique couvrant le Big Data, la sémantique et le crawl et place la R&D au coeur de son ADN.

L’infrastructure derrière OnCrawl permet d’offrir une grande scalabilité et d’analyser en moyenne plus de 15 millions d’URL et 40 millions de lignes de log par jour pour des clients ayant jusqu’à 50 millions d’URL.

L’outil se veut accessible et compréhensible par la majorité des SEO grâce à des tableaux de bord visuels et actionnables mais permet également des analyses plus poussées et techniques.

Cela se traduit notamment par la possibilité de segmenter ses analyses par groupes de pages. Cette fonctionnalité permet d’analyser plus finement les performances SEO par catégories et objectifs business et de pouvoir mettre en place des recommandations mieux ciblées.

D’un autre côté, le Data Explorer permet d’accéder à un système de requêtes préétablies ou de créer des filtres sur-mesure pour construire des requêtes particulières pour n’importe quel jeu de données :

  • Toutes les métriques à propos des facteurs de classement depuis n’importe quelles pages ou groupes de pages
  • Toutes les métriques ou variations depuis des séries de données de comparaisons de crawl
  • Toutes les données depuis les Logs ou Analytics

OnCrawl permet également de réaliser du scraping de données, c’est-à-dire de récolter via l’usage de xpath ou de regex des données présentes dans le contenu d’un site et d’y accéder via le Data Explorer.

En somme, ajouter des sets de données aux données de crawl proposées nativement. C’est une fonctionnalité très pratique pour :

  • Retrouver n’importe quel prix de produit ou recueillir un commentaire quelconque sur une page
  • Collecter le nombre exact de commentaires rédigés par article ou le nombre de formats différents d’annonces sur une page
  • Vérifier si un plan de marquage ou si les outils utilisés pour des annonces payantes sont bien mis en place
  • Lister des produits similaires ou complémentaires sur une page
  • La liste est non exhaustive !

En résumé, OnCrawl se veut être une solution SEO fiable et performante pour construire une roadmap SEO et suivre ses performances de façon sereine.

OnCrawl offre 14 jours d’essai gratuit.

Découvrir OnCrawl : https://fr.oncrawl.com

Recevez par email nos prochains conseils

Oseox sur Facebook Notifications via Facebook Oseox sur Twitter Notre actu sur twitter