L’indexation Google : Vers un nouveau paradigme ?
Ha l'indexation... s'il y a un domaine qui a beaucoup évolué dans le petit monde du référencement c'est bien l'indexation.
Il s'agit d'un défi incroyablement difficile à relever pour les moteurs de recherche. Découvrir les nouvelles URL et les ajouter à son index le plus rapidement possible.
Dès qu'il s'agit de requêtes chaudes, QDF s'active et il s'agit d'un challenge considérable pour les moteurs, sans compter la puissance de calcul vertigineuse qu'il faut déployer pour être le plus rapide, pour tendre vers le temps réel.
Si vous n'aimez pas l'histoire du SEO, que vous la connaissez déjà bien ou que vous êtes pressé ou... alors sautez directement à la dernière section de cet article.
Un peu d'histoire
La majorité des référenceurs d’aujourd’hui ignorent certainement le terme "Google Dance" mais cette expression fera sourire les plus vieux briscards.
Il y a longtemps dans une galaxie lointaine, à l'époque où on monitorait les résultats de plusieurs moteurs de recherche et non pas ceux de Google uniquement... il fallait attendre.
Vous ajoutiez des pages, modifiez des balises et rien ne se passait. Il fallait attendre que Google décide de passer sur votre page et puis décide de mettre à jour son index.
Son index ? Plutôt devrais-je dire ses index !
Car... vous pouviez très bien être positionné en top sur l'un des serveurs de Google (data center) et pas sur un autre. On utilisait des outils pour consulter en 1 seule recherche plein de datacenters différents et observer les différents résultats.
Certaines SEO connaissaient même les différentes IP par coeur 😀 Si vous voulez creuser cette partie de l'histoire du SEO avec des termes comme TTL, Round Robin DNS... back to 2007 avec cet article.
Et il faut savoir aussi qu'une année l'équipe de France a perdu en finale le championnat du monde SEO car nous étions 1er sur tous les datacenters sauf sur celui utilisé pour le concours. Grrrrrr !
La Google Dance était ce moment où Google frizzait son index pour procéder à une mise à jour géante et alignait l'ensemble de ses datacenters.
Un SEO m'a raconté qu'à un moment certains dates auraient été décidées en fonction de la pleine lune mais je n'ai jamais su s'il se moquait de moi ou si c'était vrai 😀
Cette notion de mise à jour a évolué. Il y a d'abord eu les mises à jour complète de l'index puis des mises à jour incrémentale.
Google News
11 septembre 2001, les 2 tours s'écroulent. Les résultats dans les moteurs de recherche sont peu pertinents car pas assez frais.
Or, à l'époque, la pertinence était l'objectif des moteurs de recherche. Google News arrivera en 2002 mais il faudra attendre encore longtemps avant que l'indexation devienne plus rapide pour l'ensemble du web.
Avant 2000, les mises à jour avant lieu environ tous les 3 à 4 mois. Les forums de discussions de SEO (Il n'y avait pas twitter pour s'engueuler donc on s’engueulait sur des forums) fourmillaient de sujets de référenceurs "sentant" arriver la prochaine mise à jour.
Voir enfin ses plus belles pages sat apparaître dans l'index était une véritable délivrance.
Courant 2000, les mises à jour ont commencé à être mensuelles. Je n'ai pas connu la période avant 2000. A titre anecdotique c'est la mise à jour "Fritz" qui a opéré ce basculement.
Oui, les mises à jour et autres filtres pouvaient déjà avoir des noms à l'instar des illustres PANDA et PENGUIN.
Ces dances étaient accompagnées d'un événement qui nous rendaient tous fous : La mise à jour du pagerank. Les amis, je peux vous dire que je me souviens comme si c'était hier de mon premier pagerank 6 !
Puis la dark SEO team (française) a découvert comment hacker cette valeur et se donner la note ultime, un 10 au nez et à la barbe de Google.
Matt Cutts, beau joueur, et après d'autres péripéties comme l'incroyable negative SEO sur son blog... finira par faire croire plusieurs années après que son blog a été hacké par les français lors d'un premier avril si ma mémoire est bonne.
Si la lecture des lignes précédentes vous semble hallucinantes c'est bien normal. C'était une autre époque, bien plus fun 🙂
Désolé pour ces nombreuses digressions qui sentent bon la naphtaline mais revenons à nos moutons.
Malgré ces avancés incroyables, nous sommes encore loin de ce qu'on connait aujourd'hui en terme d'indexation.
L'indexation en temps réel
C'est vers 2007 que tout a commencé à s’accélérer en France. C'était notamment l'age d'or du RSS (miam miam) . On pouvait publier un article de blog et hop ! le retrouver quelques minutes après dans l'index.
Aussitôt publié, aussitôt indexé et positionné.
Cela parait tellement évident aujourd'hui... qu'il en devient ridicule de s'en extasier désormais et pourtant.
Il s'agissait une prouesse technique incroyable.
C'était la course à l'indexation ! Les moteurs communiquaient sur la taille de leur index et il fallait avoir le plus gros.
On peut imaginer que la mise à jour "Big Daddy" qui fut terminée d'être déployée courant 2006 en est l'une des conséquences. Cela fut un changement surtout d’infrastructure et de fonctionnement plutôt qu'un changement d'algo de positionnement.
Il y avait 2 types d'index. Le principal et le secondaire, plus rarement interrogé dans lequel se trouvait théoriquement le contenu peu intéressant, pauvre, dupliqué...
Même avec des serveurs extrêmement plus performants qu'à cette époque, on peut imaginer le challenge technique auquel doit faire face un nouvel acteur comme Qwant. Sans compter que la taille du web est devenu absolument astronomique.
Imaginez que... quand Sergey and Larry alors étudiants ont débuté, ils pouvaient télécharger tout le web sur leurs serveurs facilement.
2020 : vers un nouveau paradigme ?
Progressivement nous sommes passés d'une époque où il fallait batailler pour être indexé rapidement et une époque où il faut désormais batailler pour ne pas être indexé.
C'est sur que si vous avez débuté le SEO alors qu'il était possible d'obtenir via Google Webmaster Tools la Search Console l'indexation en temps réel, toute cette pré-histoire peut paraître étrange.
Nous sommes donc arrivés à aujourd'hui :
- Chaque jour, le nombre de nouvelle URL publiées est stratosphérique.
- Un nombre gigantesque de contenu est dupliqué ou sans intérêt
- La majorité du contenu publié ne générera jamais une seule visite via les moteurs
- Pour la majorité des mots clés les plus recherchés, il existe déjà des dizaines de contenu qui répondent de manière satisfaisante
- Les référenceurs black hat sont capable de générer des proportions de contenu gigantesque, il est de plus en plus difficile de repérer le contenu "auto" et ils ne s'arrêteront jamais d'en produire toujours plus
- Des algorithmes (des IA :D) sont aujourd'hui capables de créer du contenu unique
- La puissance de calcul nécessaire pour tout crawler et recrawler régulièrement nécessite plus d'une centrale atomique dédiée et c'est de plus en plus gourmand
J'imagine que tout le monde est d'accord avec ces affirmations.
Il est temps de séparer le bon grain de l'ivraie. La course n'est plus à qui crawlera et indexera le plus mais à qui crawlera et indexera le mieux.
Je pense donc que l'on se dirige progressivement mais surement vers un nouveau paradigme concernant le crawl et l'indexation.
GoogleBot va faire la fine bouche et cela a peut être déjà commencé.
La sanction ? La désindexation ou non-indexation.
Songez qu'en 2006, un webmaster a fait mangé à Google plus de 5 milliard de pages avant de se faire blacklisté bien entendu... Pas très écolo tout cela 🙂
Que va-t-il se passer ?
De plus en plus de contenu ne seront plus indexées de manière pérennes par Google. En gros, si le contenu d'une page n'est pas susceptible d'être utile (rentable) elle va dégager de l'index ou peut être ne jamais y apparaitre.
On risque de voir apparaître un nouveau KPI le taux d'indexation pour les gros sites... et les référenceurs devront certainement être de plus en plus vigilants à la bonne indexation des contenus.
Les API pour monitorer l'indexation vont certainement devenir importantes. Peut-être que l'analyse de logs et le monitoring du crawl prendront de plus en plus d'importance pour valider le comportement de GoogleBot.
Ajoutez à cela, le coût ASTRONOMIQUE du rendering JS et "la boucle est bouclée".
Les référenceurs risquent de se creuser la tête pour essayer de faire indexer et conserver le plus de pages et la notion de "qualité" jouera à plein.
Bien entendu, on peut imaginer qu'à l'instar du filtre pour duplicate, des critères telles que la popularité d'un URL ou le trust d'un domaine joueront pour affiner le choix d'indexer ou non une URL.
Il faudra trouver comment appâter GoogleBot.
Tous ces propos sont de la pure prospective... mais je crois bien que si nous n'y sommes pas déjà nous en sommes plus très loin et tout cela va arriver à grands pas.