Pourquoi Google lutte contre le scraping ?
Jeudi 16 entre minuit et 1H, les rapports d'Oseox RANKING deviennent erronés et je crée en vitesse un ticket de bug à mon développeur préféré.
Au réveil jeudi matin, mon whatsapp et emails contiennent logiquement quelques messages d'utilisateurs ayant eu une frayeur à la réception des rapports de la nuit.
(Je précise car j'ai vu l'hypothèse passer, cela n'est pas le paramètre num=100 qui est attaqué en priorité car nous proposons depuis toujours le scrap sans ce paramètre et cela n'a pas empêché Google de fermer la porte.)
Ce blocage aura bien entendu aussi un impact sur notre check indexation d'Oseox LINK et le check indexation d'Oseox INDEX (mais pas le forçage).
Nous venions d'ailleurs de changer nos méthodes pour LINK et nous sommes depuis plusieurs mois en train de développer un nouvel outil nécessitant fortement le scrap de Google.
L'année commence donc SUPER BIEN : - )
Le lendemain matin, nous constatons également que tous les professionnels du scraping Google étaient touchés. Ce qui est donc encore pire qu'un simple bug à corriger bien entendu.
Il y a de nombreuses années, Google n'était pas très sympathique avec les scrapeurs puis avait finalement ouvert les vannes en grand bien que cela soit depuis toujours officiellement interdit.
On voit que le jeu du chat et de la souris a commencé car entre jeudi et vendredi des solutions ne fonctionnent déjà plus... Ce qui laisse présager une longue lutte.
Il sera toujours possible de scraper Google d'une manière ou d'une autre. Le problème sera la vitesse et le coût qui auront forcément des conséquences.
Car scraper un peu+doucement et scraper vite+beaucoup, il y a un monde.
C'est comme l'Alerting / Monitoring. Repérer un changement de TITLE sur 1 URL 1 fois par jour n'a rien à voir avec le fait de le faire de manière intense et massive.
Scraper sans JS ou avec JS est très loin d'être anecdotique, si même notre GG fait sans quasi tout le temps c'est que les conséquences sont délirantes...
Google souhaite-t-il tuer les outils SEO
Je pense qu'il s'en fiche un peu, nous ne représentons pas grand chose.
Toutefois cela pourrait être une option.
L'équipe Search de Google a été particulièrement mal traitée sur Twitter par des SEO suite à l'ensemble des révélations sur des années de mensonges de la part du géant de Mountain View.
Finalement, leur représentant le plus proche des SEO, John Mueller, a carrément quitté Twitter.
Cela pourrait-il donc être une petite vengeance ? Peu probable mais qui sait ?-)
Qui Google souhaite-t-il combattre ?
Google est en danger de mort à moyen terme. Eux même ont annoncé le "code rouge". ChatGPT a battu tous les records du monde de vitesse d'adoption d'un nouveau produit.
Les revenus des Ads ne montreront pas jusqu'au ciel, OpenAI et consorts sont à l'affut. Le cloud tire la croissance mais pour combien de temps ?
Certains utilisateurs ont déjà complètement changé leur usage.
Vous avez forcément entendu parlé de Nvidia qui a vu en 1 an seulement sa valorisation en bourse dépasser celle de Google. Comment ? En vendant des puces (GPU) ultra puissantes et novatrices. Des bons de commandes de plusieurs dizaines de milliards validés par tous les géants.
Par exemple xAI (Twitter / Grok / Musk). Ils viennent notamment d'acheter et d'assembler plus de 100 000 GPU Nvidia en seulement 122 jours.
Et annonce ainsi avoir construit le plus gros "super ordinateur IA" au monde.
Pour le search et pour les IA, il est assez utile de disposer de toutes les données 🙂 et donc de disposer d'un Index similaire à Google.
Google a construit son index depuis plus de 25 ans. Il faut rattraper tout cela en vitesse. Il faut donc crawler. C'est la course.
Si vous analysez les logs de vos sites, vous avez surement déjà constaté que les robots d'OpenAI se comportent parfois comme des sagouins qui ne respectent rien.
Scrapper Google peut être très utile pour guider son scrap et/ou tout simplement construire un concurrent, valider/vérifier la qualité etc. Des fournisseurs de datasets et de solutions d'entrainement peuvent avoir un besoin intense de données en passant notamment par Google. Bloquer tout cela c'est ralentir les concurrents qui font appels à ces services.
Tout cela me fait donc pencher vers cette piste en priorité, celle des concurrents IA/Search à bloquer
Des économies ?
J'ai parlé très longuement et depuis plusieurs années sur ce blog des problématiques d'indexation.
Google a clairement changé son approche et une des raisons pourrait tout simplement être la recherche d'économies.
Envoyer gratuitement ses SERP a des services payants n'a pas beaucoup d'intérêt pour Google et à la fin du mois c'est GG qui paye la facture d'électricité.
Cet anti-scrap pourrait donc être la simple continuité de cette nouvelle approche.
Vers une API Google ?
Une API Google qui donne directement et rapidement les bons résultats à un prix compétitif pourrait être l'idéal pour Google.
Mais cela tuerait de nombreux outils SEO qui ont développé un grand savoir faire et investis dans leur infra pour le scrap.
Toutefois, il s'agit certainement d'un marché trop petit pour que cela intéresse vraiment notre meilleur ami/ennemi.
La morale
Quel est le plus gros scraper du monde depuis 25 ans et qui sans le scrap n'existerait pas ? Google
Cela fait réfléchir...
Bon courage à tous les acteurs de ce secteur.