Duplicate content et référencement

La duplication de contenu est un véritable problème pour les moteurs de recherche. Alors que Google annonçait en Juillet 2008 avoir dans son index 1000 milliards d'URLs, le géant du Search avançait dans le même temps avoir repéré plus de 3 000 milliards d'URLs en tout...

Google n'indexe donc pas toutes les URLs qu'il repère, tout simplement parce que beaucoup de contenus sont sans aucun intérêt (page vide) ou bien tout simplement dupliqués !

Lorsque l'on travaille sur un volume de données aussi important et que l'on doit proposer des résultats pertinents au monde entier en mois d'une demi seconde, vous comprendrez que la chasse au gaspi est plus que nécessaire.

Comment les moteurs de recherche traitent la duplication de contenu ?

Le contenu dupliqué fait perdre du temps, des ressources, de la pertinence et donc in fine de l'argent aux moteurs. Par ailleurs, la taille de web ne cesse de croitre et ceci de plus en plus rapidement. Pour survivre et ne pas se retrouver submergés, les moteurs doivent faire des choix et laisser de côté le contenu considéré comme dupliqué.

Ce contenu dupliqué peut subir plusieurs traitements différents :

  • Etre désindexé
  • Etre moins souvent crawlé
  • Etre déclassé
  • Etre placé dans un index secondaire plus rarement interrogé

Bien entendu ce traitement diffère d'un moteur à l'autre et dépend de plusieurs facteurs.

Etant donné les conséquences, on pourrait imaginer que les moteurs doivent être certains d'avoir repéré l'original de la copie avant de pénaliser ? En réalité, cela n'est pas vraiment cas, puisque leurs algorithmes semblent aujourd'hui encore être incapables de traiter ce problème. Voici quelques critères qu'ils prennent en compte (ou devraient prendre en compte) :

  • Similarité du contenu avec une autre URL
  • Popularité de la page
  • Autorité du site
  • Présence d'un lien vers la source
  • Date de publication
  • Date de la première indexation

Pénalité générale pour duplication de contenu

Au delà des pénalités que peut subir une URL, si un site se voit attribuer d'un très fort taux de duplicate content, le domaine entier peut être pénalisé.

Les différents types de duplication de contenu

Deux cas de duplication de contenu peuvent être différenciés :

  • L'auto-duplication de contenu : Lorsqu'un site duplique lui-même ses pages sur son domaine
  • La duplication de contenu externe : Lorsque votre contenu est présent sur un autre site

Comment éviter la duplication de contenu sur son site

Avant de partir en guerre contre le contenu dupliqué par des webmaster peu scrupuleux, il convient de s'assurer que son site ne propose pas lui même des contenus identiques sous des URLs différentes. Voici les cas les plus courants :

  • Contenu accessible avec et sans www
  • Des liens internes différents vers un même contenu
  • Des pages très pauvres en contenu : Par exemple, une seule ligne de contenu original
  • Liens entrants contenant des paramètres (de tracking par exemple)
  • Création de sessions par les robots

La règle d'or à respecter est qu'un document doit être affiché que sous une et une seule URL. Toutefois, cela n'est pas toujours possible. Dans ce cas, il faut mettre en place des mécanismes pour que les robots ne puissent indexer qu'une seule URL. Voici plusieurs solutions :

  • Utilisation du fichier robots.txt
  • Mise en place d'un meta robot noindex
  • Déploiement de redirection 301
  • Suppression d'URL via Google Webmaster Tools
  • Doter certains liens de l'attribut nofollow

Partir à la chasse du contenu dupliqué ou volé

L'utilisation de votre contenu sur d'autres sites peut agir de manière négative sur votre visibilité dans les moteurs. Les webmasters agissant de la sorte sont parfois de bonne foi et ne s'imaginent pas les problèmes que cela peut créer. Pour d'autres, le vol de contenu est un véritable business. Aujourd'hui, il est possible d'utiliser le mot agrégateur afin de cacher ses méfaits... Le nombre d'encarts Adsense est souvent un moyen de différencier l'honnête homme du vil pilleur.

L'utilisation massive du format RSS est pour certains comme une autorisation au vol de contenu. Même si vous souhaitez offrir un service encore plus intéressant à vos visiteurs en proposant des flux complets, il faut bien avouer que proposer un flux tronqué est une première étape malheureusement intéressante.

Google est un excellent outil pour détecter le plagia ou tout autre utilisation de votre contenu sans autorisation. Saisissez entre guillemets une phrase prise au coeur de votre article et consultez les résultats.

Si votre site est un blog, je parie que vous serez surpris par cette expérience : Saisissez entre guillemet le titre d'un de vos billets, vieux d'un mois, et observez...

Le site copyscape.com est aussi un excellent moyen pour vous assurer de l'originalité d'un texte.

Le discours de Google sur la duplication de contenu

Tout d'abord, il faut savoir que Google ne parle pas vraiment de pénalité pour duplication de contenu mais plutôt de filtres. Personnellement j'avoue ne pas voir au final vraiment de différence... Il annonce également disposer d'algorithmes efficaces capables de repérer le contenu original surtout si la copie contient un lien vers la source. Leur index prouve que tout cela est encore loin d'être parfait.

Par ailleurs, la notion d'index complémentaire a disparu des pages de résultats.

Google conseille également de ne pas trop se préoccuper du contenu dupliqué. A vous de voir...

Sources

  1. We knew the web was big...
  2. Demystifying the "duplicate content penalty
  3. The Ultimate Fate of Supplemental Results

suivre Aurélien Bardon sur twitter

Une question ? Venez la poser sur notre forum référencement !

A propos de l'auteur

Aurélien Bardon

Editeur du portail Oseox.fr, est expert en création de trafic et e-commerçant. Après avoir travaillé en agence et chez l'annonceur, aussi bien pour des petites sociétés que pour de grands comptes, il fonde en 2009 l'agence web Aseox.

Newsletter Marketing