Scraping
Scraping : Une définition
Le scraping est une activité consistant à extraire du contenu en provenance d'une page web. L'extraction peut se faire via différentes techniques automatiques ou semi-automatiques. Bien sur un scraping digne de ce nom n'est pas la simple utilisation d'un flux RSS.
Scraping et référencement black hat
L'objectif est de récupérer du contenu souvent pour le transformer / traiter automatiquement afin de l'afficher sur son site. Sans traitement, le duplicate content généré est alors massif ce qui rend l'efficacité de le méthode très aléatoire.
Un traitement black hat tel que l'on peut le trouver dans de nombreux scripts consiste à mélanger, ré-organiser et souvent ré-ecrire du contenu. L'utilisation de multiples sources est communes.
Le scraping est souvent couplé au content spining dont je vous parlerai dans un autre article.
Scrapper du contenu est une technique permettant d'obtenir beaucoup de contenu rapidement. Voici quelques exemples d'applications :
Exemple de scraping pour le SEO
Savoir scraper les pages de résultats Google est très utile. Souvenez vous des articles précédents où il fallait via des recherches Google trouver des listes de sites / pages à cibler. A l'aide d'un script ou d'un logiciel de scraping, vous allez pouvoir récupérer directement et automatiquement la liste des URL. Pratique non ?
Voici un deuxième exemple :
Si un référenceur black hat apprend qu'un service va bientôt fermer (ce service peut par exemple être un service d'hébergement de blogs) il sait que des milliers de pages vont ainsi disparaitre. Développer un script de scraping dédié à ces blogs peut permettre de récupérer l'intégralité des contenus.
Scraping d'une base de données
Parfois des sites sont très mal conçus malgré une base de données bien chargée. Ils peuvent contenir potentiellement des milliers de pages mais elles ne peuvent pas être indexées par Google.
Un black hat peu scrupuleux peut chercher à récupérer ce contenu en scrapant les pages du site puis en les publiant sur son site qui lui sera optimisé pour le SEO. Redoutable...
Script PHP de scraping
Un petit script en PHP pour la route afin d'illustrer mes propos :
function scrap($urlCible){ // Récupération du contenu $contentCible = @file_get_contents($urlCible); // Nettoyage du contenu (style, formulaire, script...) $supprimer = array ('@<form.*?</form>@si', '@<style.*?</style>@si','@<head.*?</head>@si','@<noscript.*?</noscript>@si', '@<script.*?</script>@si'); $contenu = preg_replace($supprimer, array('','', ''), $contentCible); //Ajouter ci-dessous tous les traitements : modification balise, remplacement de mots etc. return $contenu; }
Enfin, je vous rappelle que si vous scrapez des textes ou utilisez à des fins commerciales du contenu ne vous appartenant pas, vous risquez de lourdes amendes puisque dans la majorité des cas cela est illégal. Il faut donc bien consulter au préalable les conditions d'utilisation.