SEO pour les LLM ou le retour des…
Bien que les volumes de recherche soient encore très faibles et le trafic généré insignifiant, de plus en plus d'annonceurs s'intéressent à leur visibilité dans les LLM, chatGPT en tête.
Bien entendu, lorsque les modèles vont chercher les données sur Bing, il s'agit d'être visible sur Bing. Il s'agit donc de SEO classique et rien ne change.
Toutefois, on peut constater notamment sur les modèles de recherche approfondie et de raisonnement qu'il ne faut pas nécessairement être top10.
Le modèle de chatGPT propose de nombreux liens dans ses réponses. J'avais posté un exemple sur Oseox il y a quelques mois.
A noter que cet article ne concerne pas l'IA Overview de Google : - )
Aussi même sans lien vers son site, être simplement cité peut avoir un intérêt. L'air "zero click" déjà initié par Google il y a longtemps se confirme... ce qui n'est pas sans soulever de nombreux problèmes à de nombreux niveaux (ROI, tracking...).
Ce point fera l'objet d'un autre article car la situation et le discours des SEO américains qui bataillent avec l'IA Overview depuis déjà plusieurs mois est extrêmement révélateur...
Pour comprendre comment favoriser le fait d'être cité, il faut comprendre ce qu'est un LLM et comment il fonctionne.
Pour cela, il faut être à l'aise avec les 3 notions suivantes :
- Réseau de neurone
- Dataset
- Entrainement / Apprentissage
A part de là, comme pour le SEO traditionnel qui a longtemps consisté à identifier les points sensibles de l'algo afin d'arriver à ses fins en s'appuyant dessus, il faut comprendre les biais.
Ma théorie ne fonctionnent surement pas pour tous les types de requêtes mais je me permets de la partager dès aujourd'hui avec vous.
Notez aussi que je ne suis ni un chercheur, ni un scientifique ni extrêmement fort en maths. Vous me pardonnerez donc si j'utilise un terme qui n'est pas parfaitement rigoureux.
Les réponses des IA génératives semblent "probabilistes".
Elles ont mangé puis analysé un tel volume de données qu'ils peuvent prévoir statistiquement certaines successions de mots.
Sur le playground d'openAI vous pouvez jouer depuis de nombreuses années avec un paramètre qui s'appelle la "température".
Je ne sais pas comment sont réglés les modèles "grand public" sur ce point mais plus la température est élevée plus les résultats semblent orignaux dans le sens "créatifs".
Vous connaissez les fameuses "hallucinations" lorsque les réponses inventent carrément des choses qui n'existent absolument pas.
Au lancement de chatgpt 3.5, demander la liste des meilleurs restaurants dans une ville donnée était parfois et même souvent très folklorique.
Revenons à cet aspect lié aux probabilités ce qui devrait vous rappeler les maths au lycée.
La probabilité d'un évènement est un nombre compris entre 0 et 1 qui exprime "la chance" qu'un évènement se produise.
Lorsqu'on fait des recherches sur des sujets sensibles on peut constater assez facilement des biais.
On peut "sentir" que le dataset contient un volume considérable de données qui disent la même chose même si ces choses sont fausses.
J'ai essayé plusieurs fois de mettre l'IA devant ses propres contradictions.
Exemple si vous voulez vous amuser : La politique, certaines sujets scientifiques, la religion, l'écologie... Des sujets où des associations, des partis, des extrémistes voir des états peuvent bénéficier d'un budget conséquent pour mener un travailler de lobbyistes très important.
Par ailleurs, ll faut savoir qu'avant votre prompt, il y a un "preset". Je ne parle pas de votre propre pretset mais de celui imaginé par les concepteurs.
Si vous vous souvenez de la sortie catastrophique de l'IA de Google pour les images... (seuls les gens d'une extrême mauvaise foi ne voyaient pas le problème), on peut facilement supposer que le preset était très mauvais et totalement biaisé par l'idéologie du responsable. Ce qui... pour la petite histoire fera revenir l'un des fondateurs de Google en catastrophe.
Revenons à nos moutons.
On peut donc voir via ces biais que l'IA peut être "manipulée". Si elle rencontre un certain nombre d'affirmations sur un sujet elle pourra le répéter même si cela manque de cohérence avec d'autres affirmations.
Bien entendu les modèles s'améliorent avec les temps.
Il faut aussi prendre en compte que les utilisateurs n'utilisent pas forcément en majorité les modèles dotés de la plus forte capacité de raisonnement.
Il faut donc répéter.
Vous devez voir apparaitre gros comme une maison la notion de "citation". Etre cité même sans backlink a un intérêt.
Mais j'imagine une technique bien plus ancienne pour favoriser la manipulation...
Comme obtenir 50 citations facilement, rapidement et à un prix réduit ?
Le retour des PBN
Un PBN.
Disposer de son propre réseau de citations et s'assurer que ses noms de domaine sont bien par exemple dans la data de commoncrawl.org, qu'ils sont bien crawlés par les LLM...
Alors bien entendu plus le sujet est populaire en nombre de pages plus il est difficile voir impossible à manipuler. Un peu comme le SEO traditionnel d'ailleurs.
Très facile d'être premier en 24H sur une requête confidentielle, alors que c'est long et chronophage sur une requête populaire et concurrentielle.
Je n'ai pas encore testé, ne me sautez pas dessus si ma théorie s'avère erronée, je vous laisse la primeur.
Pour du personal branling branding, cela devrait passer comme une lettre à la poste.
Bons tests 🙂