Indexation Google : Ce que vous n’avez (peut-être) pas compris

Voila, désormais tout le monde a remarqué l'évolution du comportement de Google concernant l'indexation et ne conteste plus le changement.

Toutefois l'interprétation me semble parfois erronée ainsi que l'évolution du travail du référenceur par rapport à cette évolution.

Il faut distinguer plusieurs problèmes afin de bien comprendre quel est le problème à traiter.

  1. URL non crawlée
  2. URL crawlée lentement
  3. URL non indexée
  4. URL indexées puis désindexée

 

Pour tout ce qui concerne les problématiques de crawl, il n'y a que l'analyse de logs qui peut permettre de les identifier.

Le crawl

Attention, n'imaginez pas que ce type d'analyse est une technique SEO avancée. C'est extrêmement simple.

Ce qui est compliqué c'est parfois d'obtenir les logs complets, surtout sur les gros sites qui peuvent avoir plusieurs serveurs et des "caches / CDN" externalisés & multiples.

Après il suffit de trouver une ligne où il y a GoogleBot qui passe sur votre URL.

Vous pouvez filtrer sur le user agent de GoogleBot, sur une plage d'IP de GoogleBot (tout ce qui commence par "2001:4860:4801" ou par "66.249") ou cherchez directement votre URL récalcitrante.

Excel peut faire le travail si votre portion de logs n'est pas volumineuse (il faut filtrer vos logs avant d'ouvrir XLS sauf si votre site est très petit 🙂

Ainsi, vous allez peut-être constater que vous avez un problème de crawl et non un problème d'indexation.

Comment résoudre un problème de crawl ?

Il faut se souvenir comment Google détermine son crawl et avoir en tête les critères utilisés dans les algorithmes de "crawls prédicatifs".

La popularité joue un rôle indéniable. Lorsqu'on parle de popularité, il ne faut pas penser qu'aux backlinks. Le maillage interne joue un rôle important également.

Les pages mises à jour fréquemment sont souvent aussi régulièrement crawlées. Je ne vous explique pas les têtes des logs d'un gros site d'actualité...

Il faut donc utiliser ces critères pour favoriser le crawl de vos URL. Je ne vous ai pas parlé de l'odeur des internautes mais cela joue aussi.

Toutes les techniques d'obfuscation, PageRank Sculpting, Bot Herding peuvent aider surtout sur les gros sites.

L'indexation

Il y a de plus en plus de pages non indexées et il y a de plus en plus de pages indexées puis désindexées.

Il ne s'agit pas d'un bug. Il ne s'agit pas de quelque chose que Google doit réparer.

Il s'agit d'un choix, d'un changement de paradigme.

Google ne souhaite plus tout indexer. Il souhaite séparer le bon grain de l'ivraie... et ainsi certainement réaliser de substantielles économies. Même si dans tous les cas, continuer à tout indexer à la vitesse de la lumiere n'était pas viable / rentable / possibler à terme, avec l'explosition des contenus en ligne et le développement des AI.

Envoyer un googleBot sur une URL n'est pas ultra compliquée mais le forcer à indexer une URL & à conserver une URL dans l'index est une autre paire de manches.

Contrairement au grand Stéphane Madaleno, je ne sais pas comment faire indexer automatiquement une URL.

Toutefois, il est possible de se poser les bonnes questions pour essayer de résoudre naturellement le problème.

Pourquoi Google ne veut pas de votre URL dans son index ?

Je ne vais pas livrer l'intégralité de ma pensée sur ce sujet dans cet article car il y a un critère SEO dont personne ne parle depuis des années mais qui est pourtant à mon avis redoutablement utile dès qu'on traite du sujet de l'optimisation d'un contenu.

En revanche, il y a des critères très simples à respecter.

Ces dernières semaines j'ai demandé à plusieurs personnes s'exprimant sur le sujet de me donner leurs URL et j'ai souvent été très fortement surpris.

La "qualité" de vos contenus

Ne vous étonnez pas d'avoir des difficultés à indexer des contenus si :

  • Ils sont ultra courts
  • Il ne contiennent aucune image ou vidéo
  • Ils contiennent une quantité astronomique de portions cliquables (liens) par rapport au texte
  • Ils ne disposent de quasiment aucun lien interne pointant vers eux
  • Ils ne sont pas "compatible mobile"
  • Ils sont en partie dupliqués

La rapidité

Une autre réflexion plutôt d'ordre stratégique et organisationnel.

Est-ce qu'il est vraiment important pour votre activité que vos contenus soient indexés en quelques minutes plutôt qu'en 48H ?

Est-ce qu'il ne serait pas pertinent de revoir votre maillage ou la "qualité" des contenus plutôt que de vous acharner sur quelques URL ?

Attention, je n'ai pas dit que la non-indexation n'est pas un probléme catastrophique : )

Conclusion

Je peux parfois être très critique concernant Google mais en l'occurrence il faut bien comprendre que :

  • Cela n'est pas un bug mais un choix
  • Nous avons été très gatés avec la "full" indexation en temps réel et c'est désormais terminé
  • Vous ne pourrez plus faire avaler aussi facilement l'intégralité de votre contenu bas de gamme, mis en ligne à la va-vite

Bien entendu, vous arriverez toujours à trouver des contre-exemples.

Mais si vous pensez qu'un contre exemple suffit à invalider ces quelques régles de bons sens alors...

Le choix de Google de ne plus tout indexer est officiel. Il ne s'agit pas d'un avis personnel même si effectivement parfois (souvent ?) ils ont de véritables bugs ^^

Ne manquez pas les futurs articles via Twitter

A propos de l'éditeur d'Oseox.fr

Aurélien Bardon est un passionné de SEO. Il crée Outil-Referencement.com en 2005, Oseox.fr en 2008, fonde en 2009 l'agence SEO Aseox à Lille et lance en 2016 Oseox Software, une plateforme de logiciels SEO.

Oseox Monitoring