Robot, spider et crawler

Définition d'un robot

Un robot, un spider ou un crawler sont des termes qui désignent la même chose. Il s'agit d'un programme informatique créé par les moteurs de recherche. Ces programmes tournent en boucle sur les nombreux serveurs des moteurs.

A quoi sert un robot ?

Un robot parcourt inéluctablement le web. De page en page, de site internet en site internet, le robot télécharge le contenu des sites web. En fait, il n'enregistre que le contenu texte, c'est-à-dire le code source HTML généré par les serveurs. Stocker les multiples ressources multimédia (image, vidéo, son...) serait inutile et fort couteux.

En plus de rapatrier le contenu sur les serveurs du moteur pour lequel il travaille, le robot qui peut se déplacer de liens en liens (d'où l'appellation spider à l'instar de l'araignée qui marche sur sa toile) découvre des nouvelles URLs et donc de nouvelles pages à crawler puis à analyser.

Lorsqu'un document a été crawlé et qu'il ressort dans les pages de résultats, on parle alors d'indexation.

Il est possible de repérer les robots lorsqu'ils viennent sur votre site. Chaque robot possède un "user agent" propre. Le User Agent est une information envoyée au serveur lorsque l'on consulte une page web. Par exemple, si vous utilisez le navigateur Mozilla Firefox,votre user agent peut être Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1.

User Agent de Google, Yahoo, Live et Cuill

Le tableau suivant vous indique quelques user agent connus pour les principaux moteurs de recherche :

Moteur Usar Agent
User agent des robots Google
  • GoogleBot
  • Google Wireless Transcoder
  • AdsBot-Google
  • Mediapartners-Google
  • Googlebot-Image
User agent du robot Yahoo
  • Slurp
Usuer agent du robot Live
  • MsnBot
user agent du robot Cuil
  • Twicler

Faire indexer son site par un robot

Vous l'aurez compris, la première étape pour obtenir du trafic en provenance des moteurs de recherche est de se faire indexer par les robots. Il est inutile de soumettre dans les pages officielles des moteurs, le plus efficace est d'obtenir quelques liens vers votre nouvelle page ou votre nouveau site.

Robot et bande passante

Les robots peuvent s'avérer gourmands en consommation de bande passante notamment dans les cas suivants :

  • Site très populaire
  • Site ayant un nombre très important de pages
  • Site étant très fréquemment mis à jour

Il n'est pas rare de voir un robot passer de nombreuses fois par jour sur un même site web et parcourir des centaines voir des milliers de pages. Le robot de Cuill (Twicler pour les intimes) est d'ailleurs tellement gourmand que de nombreux administrateurs de serveurs ont décidé de lui interdire l'accès aux sites via le fichier robots.txt.

A propos de l'auteur

Aurélien Bardon

Editeur du portail Oseox.fr, Aurélien Bardon est expert en création de trafic et e-commerçant. Après avoir travaillé en agence et chez l'annonceur, aussi bien pour des petites sociétés que pour de grands comptes, il fonde en 2009 l'agence SEO Aseox.