Services : Blog Forum Flux
Formation Trafic : Référencement Liens sponsorisés Affiliation Ecommerce Nom de domaine E-réputation Marketing Mobile Black Hat Outils Referencement
Formation Technique : Performance Web Html Css Sql Curl Asp Dotnet Php Ajax Wordpress Twitter Google Analytics

Forum Oseox
Oseox

Robot BaiDuSpider : a-t-il un avantage ?

Forum Référencement et Trafic
Nous sommes le Dim 20 Mai 2018 22:30

Heures au format UTC [ Heure d’été ]




Poster un nouveau sujet Répondre au sujet
Auteur Message
MessagePosté: Mar 28 Avr 2009 14:14 
Professionnel
Professionnel
Avatar de l’utilisateur
Bonjour,

Je rencontre un problème avec ce robot, il s'agit du site d'une marque, je ne pense que le référencement en Chine soit son principal soucis.
Le site est en Français uniquement. Problème : le site utilise un client web riche lourd (démo 3d...) et ce robot n'est pas particulièrement attentionné lorsqu'il crawle le site. Aussi le serveur, bien que costaud n'aime pas spécialement les requêtes qu'il fait à 18h en même temps que les utilisateurs normaux.

J'envisage de supprimer l'accès à ce robot s'il met pas de l'eau dans son vin, de toute façons, peu de chinois lisent le Français.

Ce robot est très actif sur tous les sites dont je me suis occupé, pourquoi ? cherche-t-il à concurrencer google à moyen terme ? Il y a fort à parier que son index doit être riche... de plus, il charge les swf
Pourtant, il n'y a pour le moment que très peu de pages dans son index ... oseox :


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mar 28 Avr 2009 15:04 
Administrateur
Avatar de l’utilisateur
hello Stephane

Je pense que cela n'est dans ton cas pas grave de se passer du robot de baidu.

Si tu as du temps et que tu souhaites le conserver de temps en temps, tu peux consulter cet article Stopper l'activité des robots lorsque vous avez trop de visiteurs qui te donnera certainement des idées de développement.


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mar 28 Avr 2009 16:46 
Professionnel
Professionnel
Avatar de l’utilisateur
Merci de ta réponse, je connaissais même pas le 503 :lol:
Il n'y a vraiment que ce robot qui soit aussi agressif, trop même !

Je vais mettre cela en place pour les prochain sites sur dédié tant c'est rapide à faire, petite explication pour les intéressés (je l'ai pas mis en place, c'est donc incomplet, je peux donner les sources plus tard si certaisn se montrent intéressés, une tâche CRON tournerait avec quelque chose du genre :

Code:
#ps xuc | grep apache


En récupérant le % CPU, mémoire, si la limite est dépassée, je remplace le htaccess du site (et conserve le "normal" à la racine en le renommant) :

Code:
#mv /path/to/site/.htaccess /path/to/site/.htaccess_temp
#mv /path/to/site/.htaccess_503 /path/to/site/.htaccess


Ce .htaccess contenant la même chose avec ceci après le lancement de du mode de réecriture :

Code:
RewriteCond %{HTTP_USER_AGENT} ^.*(BaiduSpider|slurp|crawl|bot|...) [NC]
RewriteRule .* 503.php


redirection des robots sur 503.php qui contient :

Code:
<?php
header('HTTP/1.1 503 Service Temporarily Unavailable');
header('Status: 503 Service Temporarily Unavailable');
?>


Juste pour savoir, google ne risque t-il pas, (si d'aventure j'interdis google) d'en conclure que le site tourne sur un serveur merdique et qu'il ne mérite de ce fait qu'une moindre audience ?


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mar 28 Avr 2009 17:18 
Avatar de l’utilisateur
Costaud ce que tu viens de pondre là Stéphane.

A mon avis, cela va dépendre si tu l'envoies bouler fréquemment ou non.


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mar 28 Avr 2009 21:45 
Administrateur
Avatar de l’utilisateur
Si tu n'es pas sur une application critique et que tu as de la marge autant ne pas jouer avec le feu et laisser googlebot tranquille :)

Très belle mise en application en tout cas, bravo !


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mer 29 Avr 2009 06:53 
Avatar de l’utilisateur
Il y a un truc qui m'échappe. :oops:

Pourquoi envisager le remplacement du fichier .htaccess, avec interdiction du crawl pour tous les bots , si limite %PU atteinte ?
Pourquoi ne pas interdire que le bot BaiduSpider, cela éviterait ainsi ce remplacement du fichier et laisserait googlebot faire son boulot tranquillement ?


Haut
 Profil Envoyer un e-mail  
 
MessagePosté: Mer 29 Avr 2009 08:30 
Professionnel
Professionnel
Avatar de l’utilisateur
Code:
RewriteCond %{HTTP_USER_AGENT} ^.*(BaiduSpider|slurp|crawl|bot|...) [NC]


Libre à chacun de mettre ce qu'il veut là dedans, je ne me risquerai pas moi non plus à interdire le robot google, je posais la question pour obtenir un retour d'expérience sur le 503.
J'ai cela dit une bonne liste de nom d'agents dont j'interdis systématiquement l'accès : ceux utilisés par les aspirateurs par exemple, qui ne s'embarrassent pas de savoir si votre serveur tient le coup ou non.


Haut
 Profil Envoyer un e-mail  
 
Afficher les messages postés depuis:  Trier par  
Poster un nouveau sujet Répondre au sujet  [ 7 messages ] 

Heures au format UTC [ Heure d’été ]


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité


Vous ne pouvez pas poster de nouveaux sujets
Vous ne pouvez pas répondre aux sujets
Vous ne pouvez pas éditer vos messages
Vous ne pouvez pas supprimer vos messages
Vous ne pouvez pas joindre des fichiers

Rechercher:
Aller à:  
Abonnez-vous au flux RSS

Blog

Copyright : Moteur, traduction et optimisation
Merci de votre visite sur le forum Oseox