Optimisation LLM : SEO, GEO et IA : On fait le point
Entre les vendeurs de pelles, les arnaqueurs, les buzzeurs et surtout la vitesse des changements... de nombreux professionnels du web n'arrivent plus à y voir clair.
Les éditeurs/e-commerçants sont harcelés de propositions plus alléchantes les unes que les autres.
Les déploiements des acteurs de l'IA et des LLM ne sont pas identiques dans chaque pays du monde, en Europe (AI act) et plus particulièrement en France.
La peur de rater quelque chose est extrêmement forte.
Il convient donc de faire une pause.
Définir ou redéfinir les termes avant d'analyser puis conclure... pour un bref instant.
C'est l'objectif de cet article dédié au LLM, au GEO/SEO et à l'IA dans une logique de génération de trafic.
IA Overview
L' IA Overview de Google est une réponse IA qui apparaît au-dessus de tous les autres résultats dans la SERP.
Elle n'apparaît pas dans 100 % des cas.
Elle apparaît principalement pour les mots-clés liés à des recherches d'informations plutôt que sur des mots clés E-commerce.
Cela n'est toujours pas déployé en France mais c'est déployé quasiment partout ailleurs dans le monde occidental.
IA mode
Le mode IA ou "AI mode" est un onglet spécifique proposé directement dans l'interface de Google.
Les réponses proviennent d'une version personnalisée de Gemini.
La différence par rapport à IA Overview dans les réponses ? "Des capacités de raisonnement, de réflexion et multimodales plus avancées".
Cela n'est toujours pas déployé en France mais cela a été déployé partout aux USA et même coté UK.
En gros, cela correspond à un "ChatGPT" (LLM) accessible depuis la page d'accueil de Google.
LLM
L'exemple de chatGPT classique. J'espère que vous avez bien remarqué l'absence de lien...
Nous y reviendrons plus loin dans cet article.
Source : D'où viennent les données LLM/IA ?
Les LLM explorent le Web, achètent des données, utilisent des données publiques, les livres, les répertoires open source... Vous pouvez partir du principe qu'ils ont tout lu (jusqu'à une certaine date bien entendu).
En source notable, nous pouvons citer Commoncrawl.org et Wikipedia.
L'exploration du web est réalisée comme GoogleBot, c'est à dire via des crawlers. Nous y reviendrons plus loin dans l'article.
LLM : Comment cela marche ?
Quand vous envoyez un prompt à ChatGPT, il peut avoir la réponse à votre question ou avoir besoin d'effectuer une recherche sur le Web.
1) Lorsque la réponse se trouve dans l'ensemble de ses données (pré-entraînées)
Pendant l'entraînement, ChatGPT "lit" une quantité ÉNORME de textes, livres, sites Web, articles, codes... Des systèmes et des humains l'aident à apprendre et comprendre.
ChatGPT convertit les prompts en tokens et utilise un réseau neuronal pour analyser, calculer des probabilités et construire une réponse mot par mot
=> Il ne cherche pas une réponse dans une base de données ! Il génère une réponse basée sur des modèles et des probabilités. C'est pour cela que la réponse ne contient pas de "lien source". Les liens ne sont d'ailleurs surement pas stockés...
Cette explication n'est pas purement technique. Pas de lien => pas de clic => pas de trafic : - )
Un autre élément très important à comprendre concernant le dataset est sa date. Le dataset de GPT4 était Juin 2024. Apparemment c'est la même chose pour chat GPT5 (à confirmer).
2) Lorsque ChatGPT a besoin de nouvelles données
Quand Chatgpt comprend qu'il ne peut pas parfaitement répondre à votre prompt alors il peut chercher sur le Web. Parfois il vous demandera même l'autorisation.
Voici le process :
- Analyse la requête pour créer une requête de recherche (ex BING)
- Envoie la requête à un moteur de recherche (ex BING)
- Lit le contenu des pages web les plus pertinentes, extrait et résume les informations
- Puis, génère une réponse (en utilisant à nouveau des probabilités pour la génération en langage naturel)
Officiellement, BING est le moteur de recherche le plus utilisé par chatGPT.
Toutefois, de plus en plus de spécialistes du référencement naturel pensent que ChatGPT utilise davantage Google que Bing.
Rappelons que Microsoft propriétaire de BING est l'un des plus important partenaire technique et financier de ChatGPT. Cela fait un peu tâche ^^
************************************
Nous avons donc défini chaque concept, acteur et process.
Il est temps de mieux comprendre le contexte dans lequel s'inscrivent les LLM et l'IA et plus particulièrement dans le domaine du Search
************************************
Parts de marché de la recherche US
Source 2024: Sparktoro
Optimiser pour ChatGPT signifie donc optimiser pour 0,25 % des recherches.
Google traite 373 fois plus de recherches que ChatGPT.
Si vous trouvez qu'être positionné hors top 3 ne génère pas assez de clics et que vous visez le court terme alors vous pouvez sauter directement à la conclusion de cet article.
Pour l'état du marché aujourd'hui c'est ici.
Les intentions de recherche dans les LLM (US)
Beaucoup d'utilisateurs recherchent des informations. Les recherches "navigational" très importantes me surprennent beaucoup oO
Une minorité d'utilisateurs cherchent à acheter mais d'autres études indiquent que quand c'est l'objectif la transfo est au rdv.
Optimiser ChatGPT pour les acheteurs signifie optimiser pour 2 % de 0,25 % de toutes les recherches.
Source : SEMRUSH / US ClickStream (octobre+novembre 2024)
************************************
Maintenant que les termes sont définis et que le contexte est connu, analysons les conséquences pour le SEO
************************************
IA Overview : Les conséquences pour le SEO
Le taux de clic de la source de l'AI Overview est ridicule...
Le taux de clic des résultats en dessous baisse drastiquement
On peut s'attendre entre -15 à 50% de trafic (je n'ose écrire plus 🙂
Voici une autre étude de ahref sur l'impact du taux de clic sur la 1er position SEO quand l'AI overview s'affiche.
Cela pique !
Une autre question à se poser est "quand l'AI overview se déclenche ?"
Cette étude de pewresearch.org essaye d'y répondre.
Sans surprise les questions et les longues requêtes (plusieurs mots clés) sont sur representées.
C'est donc l'édito qui prendra le plus cher plutôt que les grosses requêtes E-commerce. Rassurant.
Les KPI de trafic pourront s'écrouler avec un impact plus limité sur le CA... ce qui donnera l'impression d'une augmentation énorme du taux de transformation global : - )
Google a lancé une grande guerre de communication et un grand concours pour jouer sur les mots.
Le PDG a carrément donné une très longue interview vidéo au cours de laquelle il a répété un grand nombre de fois que Google continuait à envoyer beaucoup de trafic.
Si vous me suivez sur Twitter et Linkedin j'en ai plusieurs parlé.
Le but ? Les éditeurs ne doivent pas se plaindre du "vol" de leur contenu en échange de... RIEN.
Problème... sur un des blogs de Google (polonais) on peut trouver cette photo : Le terme "le grand découplage" est désormais connu des SEO.
Pour les moins habitués à la Google Search Console, on peut voir l'écart s'accentuer entre impressions et clics.
C'est à dire que le taux de clic s'écroule littéralement.
Mais cela n'est pas ChatGPT le responsable c'est la modification de l'interface Google (en tout cas pour l'instant).
LLM et génération de trafic
C'est un nouveau terrain de jeu, mais il est ridiculement petit par rapport à Google pour le moment.
ChatGPT utilise les moteurs de recherche lorsqu'il a besoin de données récentes.
Un grand nombre de réponses en provenance du dataset initial ne contiennent ni lien ni mention et ne peuvent donc pas générer de trafic.
La plupart des réponses fournies par ChatGPT après avoir utilisé un moteur de recherche contiennent un lien ou une citation ce qui permet d'obtenir du trafic.
ChatGPT ne mentionne pas uniquement les sites classés dans le top 3, il peut aller beaucoup plus loin...
Il s'agit de mentions (sans lien) et également de liens.
À l'avenir, un LLM parviendra peut-être à prendre une part de marché significative à Google. La croissance est très impressionnante.
A partir du moment où Google mettra fortement en avant des résultats IA via l'AI mode alors être cité sera forcement une opportunité étant donné le taux d'utilisation de Google. Mais le taux de clic ne sera pas comparable à ceux d'une SERP googlienne classique.
Tout va très vite et tout peut changer très vite.
************************************
Maintenant la question à 100 000$, comment être visible dans les résultats IA ?
************************************
GEO aka Generative Search Engine ou comment optimiser sa visibilité dans les LLM
Crawl et sources de données
ChatGPT explore comme GoogleBot via un robot qui s'appelle (notamment) : ChatGPT-User
C'est à dire que toutes les optimisations liées au crawl pour Google s'appliquent.
On peut facilement imaginer que pour l'instant coté Javascript, il ne faut rien espérer d'un crawler IA.
ChatGPT utilise l'ensemble de données de Commoncrawl, un crawler qui partage toutes ses données à tout le monde.
L'optimisation de l'exploration d'un robot est identique...
A noter que les LLM pour différentes raisons aiment parfois être discrets et peuvent utiliser des User-Agents différents...
Pour gérer le crawl, le fichier robots.txt est utile. Le fichier Llms.txt ne semble pas être utilisé pour l'instant.
Rappelez-vous qu'il y a 2 ans, la mode était de tout bloquer pour ne pas être pillé : Comment éviter que l’IA utilise votre contenu ?
C'est idiot mais si désormais vous souhaitez être visible, il faut mieux modifier en vitesse ces règles anti-crawl ^^
Utilisation des moteurs de recherche
Quand ChatGPT comprend qu'il a besoin de données récentes alors il envoie une requête à un moteur de recherche (Bing/Google) dont vous connaissez le fonctionnement classique.
Il faut donc être visible dans les moteurs de recherche pour espérer ressortir dans les LLM ^^
Toutefois, ChatGPT ne va pas forcément utiliser les premiers résultats, il peut aller beaucoup plus loin ce qui est une bonne nouvelle si votre SEO n'est pas au top.
Comprendre la fraicheur : Le QDF du LLM
Concernant Chatgpt, nous avons vu qu'il allait utiliser les moteurs surtout quand il a besoin de données récentes. Vous vous souvenez de QDF ?
Il est donc logique que les contenus récents disposent de plus de chance de ressortir.
N'allez pas dire que vous invite à modifier / cloaquer les dates de publication. On conclura plutôt qu'il faut continuer à publier beaucoup 🙂
Il est ainsi possible de se retrouver très rapidement visible dans les LLM.
Probabilité, fréquence et citation
Les LLM utilisent des probabilités et savent synthétiser un nombre immense de données.
Il est donc nécessaire d'être mentionné sur de nombreuses pages afin d'augmenter la probabilité d'être cité.
Si vous êtes un lecteur assidu d'Oseox, vous aviez lu ma théorie désormais prouvée sur les PBN : SEO pour les LLM ou le retour des PBN…
Il y a bien entendu d'autres méthodes... Nativement, sans optimisation, ce fonctionnement favorise les marques à forte notoriété.
Désolé pour les petits E-commerçants et surtout les petits éditeurs de contenu mais il y a absolument tout qui se dresse devant vous...
La langue des LLM
Je n'ai pas creusé cette partie mais il y a certainement des choses à creuser du coté de la langue anglaise en particulier.
Les données structurées
Les données structurées sont très souvent citées comme astuce pour augmenter sa visibilité dans les LLM.
Toutefois, je n'ai pas pu tester ou constater de différences car par défaut, il s'agit d'une recommandation SEO classique pour tous les sites.
Rien de nouveau donc mais si cela peut faire plaisir de lire une liste dans cet article allons y 🙂
Article, NewsArticle, BlogPosting, FAQPage, Product, Howto, Organization, Breadscrum…
Comprendre les règles de déclenchement d'affichage de l'IA overview
Comme vu précédemment, la plupart des recherches sur LLM sont des recherches d'informations et l'IA overview de Google se déclenche surtout sur des requêtes longues ou contenant des questions (60%) : quoi, qui, lequel, où, quand, comment, pourquoi, si...
Publier des pages ciblant ce type de mots-clés ou essayer d'optimiser des pages E-commerce avec ce type de contenu peut être tester.
Toutefois, concernant l'IA overview vous avez lu comme moi les taux de clic
et
concernant les réponses en provenance du dataset initial d'un LLM vous pouvez constater l'absence de liens.
A partir de là... il y a certainement plus utile à faire pour générer du trafic non ?
Il est possible de compter davantage sur les mentions mais c'est toute notre manière de penser la performance qu'il faudra alors revoir, les reportings...
Attention à ne pas tomber dans les modes / tendances : - )
La personnalisation des LLM
Cela fait désormais au moins de 2 ans que nous utilisons intensément les LLM.
Tout le monde sait donc que les réponses changent d'un utilisateur à un autre, du contexte de la discussion (fenêtre) et de votre historique.
Je ne vais pas aborder la question du monitoring dans les LLM car cet article est déjà bien long... mais gardez bien en tête que les réponses des LLM sont hautement personnalisées.
CONCLUSION / SYNTHESE
Les informations les plus récentes de ChatGPT remonteraient à juin 2024 sinon, il doit effectuer des recherches sur le web (via Bing ou Google), ce qui correspond au référencement traditionnel.
La plupart des recherches sur LLM sont des recherches d'informations (moins de recherches commerciales).
ChatGPT génère très peu de trafic et d'acheteurs par rapport à Google. Vérifiez vos données de fréquentation.
L'IA overview entraînera une perte importante de trafic, en particulier le trafic informationnel. Il utilise le contenu de sites... qu'il cite, mais le taux de clics est très faible.
De nombreuses réponses ne contiennent AUCUNE citation ni AUCUN lien. Les LLM utilisent le plus souvent votre contenu gratuitement.
Un LLM est un modèle probabiliste. Il est donc la plupart du temps nécessaire d'être cité aussi souvent que possible sur le web afin d'augmenter les chances d'apparaître dans les réponses basées sur son ensemble de données.
L'optimisation d'un site web pour les LLM consiste principalement à l'optimiser pour les moteurs de recherche, car ChatGPT utilise les moteurs de recherche pour trouver des informations récentes et que ChatGPT est un crawler web comme GoogleBot.
Nous ne devons pas oublier que Google dispose également d'un LLM (Gemini) que de milliards d'utilisateurs pourraient l'utiliser rapidement via le mode IA en masse en fonction des choix d'interface de Google.
La France (Google.fr) est le dernier de la classe. Cela sort partout sauf chez nous.
Tout peut changer très rapidement. Aussi bien en ce qui concerne le fonctionnement des outils, le comportement des utilisateurs et les interfaces.
J'ai essayé modestement de faire un point sur l'état actuel des choses et j'espère que cela vous aura été utile.
Si vous voulez me remercier car cela m'a pris une journée entière ^^, venez créer un compte gratuit sur Oseox, une superbe plateforme SEO cela me fera plaisir ; - )