Comment éviter que l’IA utilise votre contenu ?
boursi
Le contenu IA est en train de déferler partout sur le web & de plus en plus de SEO vont être tentés par son utilisation.
Pour entrainer l'IA a répondre aux questions des internautes, il faut d'abord l'entrainer avec une quantité importante de données. Il faut l'instruire.
Par ailleurs, l'IA va aussi s'entrainer via les interactions humaines.
Pour répondre aux questions liées à l'actualité, l'IA doit disposer de nouvelles sources et être capable de rechercher sur Internet.
Enfin, afin de se crédibiliser, l'IA doit pouvoir citer des sources. Ce qui est déjà le cas dans le cadre de nombreuses réponses pour "l'IA de Bing" et l'IA de Google (Bard).
A l'instar de Google, les chercheurs ont donc besoin de crawler le web.
Vous n'avez peut être pas envie que votre contenu soit utilisé ? Alors comment se "protéger".
Il est possible de bloquer des crawlers via le fameux robots.txt. Encore faut-il connaitre le user-agent du crawler.
Comment bloquer le plugin user de ChatGPT ?
User-agent: ChatGPT-User
Disallow: /
Attention, cela ne signifie pas que ChatGPT3.5 n'utilisera pas votre contenu d'une manière ou d'une autre. C'est bien trop tard pour cela.
Et il n'y a pas que ce plugin et chatGPT. Il existe un crawler "communautaire" à destination des chercheurs, entreprises à but non lucratifs et particuliers.
Son nom ? Common Crawl.
Comment bloquer Common Crawl ?
User-agent: CCBot
Disallow: /
et bien entendu comme il s'agit d'un crawl un meta robots noindex fonctionne aussi
<meta name="ccbot" content="noindex">
Pour en savoir plus sur Common Crawl.
Je ne sais pas du tout si Commoncrawl est beaucoup utilisé et il existe certainement de nombreux autres crawlers ou index.
Notez que le crawl de ce robot représenterait 60% de l'index de ChatGPT.
Oui mais...
Le Search est peut être en train de changer et il faut donc penser différemment.
Imaginez... si une partie significative de personnes commencent à utiliser l'IA pour faire ses recherches plutôt que Google.
et que l'IA cite ses sources.
Il y a des internautes qui vont certainement vouloir cliquer sur les liens et visiter la source.
Il y a donc du trafic à aller chercher.
Pire... peut-être qu'un jour cela deviendra une source non négligeable d'acquisition de trafic et que vous voudrez donc apparaitre comme source !
Inception du Search
Toutefois, pour une raison de coût & pour les résultats "chauds", si l'IA se contente de réaliser une recherche en live dans les moteurs de recherche et de réaliser une synthèse via l'accès au cache des pages qui rankent, le crawl de votre contenu sera alors réalisé techniquement par Google et non par les IA concurrentes.
Tout bouge tellement vite qu'il ne s'agit là que d'une réflexion à chaud sur ce qui est en train de se produire.
Il apparait toutefois évident que nous sommes face à des évènements majeurs dans le domaine du Search et peut être même... de l'humanité.
UPDATE
Suite au lancement du bot officiel de chatgpt, il est possible de le bloquer via robots.txt
User-agent: GPTBot
Disallow: /