Duplicate content et Url canonique
Si vous me le permettez, nous commencerons cet article par quelques rapides et courtes définitions nécessaires à la bonne compréhension de la suite de ce billet. J’ose espèrer que vous ne m’en tiendrez pas rigeur 😉
Définition URL : (Source Wikipédia)
Une URL, de l'anglais Uniform Resource Locator, littéralement «localisateur uniforme de ressource », est une chaîne de caractères utilisée pour adresser les Ressources dans le World Wide Web : document HTML, image, son, forum Usenet, boîte aux lettres électronique, etc. Elle est informellement appelée une adresse Web.
Définition Canonique : (Source Wikipédia)
En mathématiques, canonique qualifie ce qui semble à tous comme le plus simple, le plus porteur de sens ou ce qui facilitera des manipulations ultérieures.
En informatique, la mise en forme canonique est le procédé par lequel on convertit des données qui ont plusieurs représentations possibles vers un format 'standard'.
Définition Duplicate content :
Lorsque les robots des moteurs de recherche tombent sur des pages au contenu identique ou présentant un fort taux de similarité, il s'agit d'un cas de "duplicate content" ou en bon français d'un cas de duplication de contenu. Des pages possédant une balise meta description identiques sont par certains moteurs reconnues directement comme pages dupliquées.
Et l'url canonique dans tout ça ?
Vous vous demander sûrement où je veux en venir avec cette longue introduction somme toute rébarbative. Les pages détectées comme étant du duplicate content ne présentent généralement aucun intérêt pour les internautes et les moteurs de recherche. De plus, cela prend de la place inutilement dans les index des moteurs. C'est pourquoi, les moteurs ont mis en place des algorithmes plus ou moins puissants (et sensibles) pour détecter le duplicate content.
Que cela change-t-il dans votre stratégie de référencement ?
L'idée est assez simple : Il faut garder en tête qu'une page doit toujours correspondre à une seule et unique url, l'url dite connonique. Vous devez donc tout mettre en place pour que vos pages ne réagissent que pour une seule url.
Mais comment font les moteurs pour choisir la page "source" et classer les autres comme des cas de duplicate content ?
Si nous nous attardons plus particulièrement sur l'algorithme de Google (dont le filtre de duplicate content est assez tatillon), il semble que la popularité en terme de lien soit le critère déterminant.
Et oui, vous l'aurez deviné cela ouvre des possibilités de nuisance assez importantes. Matt Cutts, le prophète du dieu Google en a même fait les frais.
Les erreurs courantes :
Le concept d'url canonique est certainement une des bases du référencement à garder systématiquement en tête.
Pensez à bien configurer votre serveur ou à mettre en place une règle de réécriture via un htaccess (si vous êtes sous Apache) pour ne pas dupliquer l'intégralité de votre site via des urls fonctionnant avec www et sans www.
De la même manière, il est assez classique de voir une home page s'afficher aussi bien sur l'url www.domaine.com que sur www.domaine.com/index.php (ou index.htm, index.html etc...)
Solutions au duplicate content :
Problème : Votre site fonctionne aussi bien sous l'url -http://www.domaine.com que sous -http://domaine.com ?
Solution htaccess :
RewriteEngine on
RewriteCond %{HTTP_HOST} !^www.domaine.com$
RewriteRule ^(.*) http://www.domaine.com/$1 [QSA,L,R=301]
Problème : Votre home page est accessible avec et sans /index.php ?
La solution consiste à choisir une url dès la création du site et de ne faire aucun lien vers la "mauvaise" url. Vous pouvez en plus rajouter une redirection par mesure de sécurité.
Il est assez surprenant de voir certains sites d'agences de référencement contenant des erreurs de ce type... mais il paraît que se sont les cordonniers les plus mal chaussés 🙂
Si vous ne pouvez pas faire autrement qu'employer des urls différentes, sachez qu'il existe tout de même plusieurs solutions :
- L'utilisation de l'attribut rel="nofollow"
- L'insertion automatique de balise robot portant l'attribut noindex pour les urls à ne pas indexer
- La mise en place de redirections permanentes 301 (que nous avons detaillé)
- L'utilisation d'un robots.txt
- Les outils de suppression d'urls des moteurs
Conclusion :
Il est toujours temps de régler un problème de duplication de contenu une fois détecté, notamment grâce à des redirections permanentes. Veillez à bien tester les entêtes HTTP pour être sur que cela sera bien interprété par les robots. Enfin, sachez que le service Google Webmaster Tools permet entre autre de préciser son "domaine favori".
[edit] Google vient de mettre en ligne un article très intéressant sur le duplicate content ici.[/edit]