Robot, spider et crawler
Définition d'un robot
Un robot, un spider ou un crawler sont des termes qui désignent la même chose. Il s'agit d'un programme informatique créé par les moteurs de recherche. Ces programmes tournent en boucle sur les nombreux serveurs des moteurs.
A quoi sert un robot ?
Un robot parcourt inéluctablement le web. De page en page, de site internet en site internet, le robot télécharge le contenu des sites web. En fait, il n'enregistre que le contenu texte, c'est-à-dire le code source HTML généré par les serveurs. Stocker les multiples ressources multimédia (image, vidéo, son...) serait inutile et fort couteux.
En plus de rapatrier le contenu sur les serveurs du moteur pour lequel il travaille, le robot qui peut se déplacer de liens en liens (d'où l'appellation spider à l'instar de l'araignée qui marche sur sa toile) découvre des nouvelles URLs et donc de nouvelles pages à crawler puis à analyser.
Lorsqu'un document a été crawlé et qu'il ressort dans les pages de résultats, on parle alors d'indexation.
Il est possible de repérer les robots lorsqu'ils viennent sur votre site. Chaque robot possède un "user agent" propre. Le User Agent est une information envoyée au serveur lorsque l'on consulte une page web. Par exemple, si vous utilisez le navigateur Mozilla Firefox,votre user agent peut être Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.1.
User Agent de Google, Yahoo, Live et Cuill
Le tableau suivant vous indique quelques user agent connus pour les principaux moteurs de recherche :
Moteur | Usar Agent |
---|---|
|
|
|
|
|
|
|
Faire indexer son site par un robot
Vous l'aurez compris, la première étape pour obtenir du trafic en provenance des moteurs de recherche est de se faire indexer par les robots. Il est inutile de soumettre dans les pages officielles des moteurs, le plus efficace est d'obtenir quelques liens vers votre nouvelle page ou votre nouveau site.
Robot et bande passante
Les robots peuvent s'avérer gourmands en consommation de bande passante notamment dans les cas suivants :
- Site très populaire
- Site ayant un nombre très important de pages
- Site étant très fréquemment mis à jour
Il n'est pas rare de voir un robot passer de nombreuses fois par jour sur un même site web et parcourir des centaines voir des milliers de pages. Le robot de Cuill (Twicler pour les intimes) est d'ailleurs tellement gourmand que de nombreux administrateurs de serveurs ont décidé de lui interdire l'accès aux sites via le fichier robots.txt.