QDF et autres indices de Google
Il y a quelques jours, nous avons publié sur ce blog, un article intitulé Comment fonctionne l'algorithme de Google. Si vous ne l'avez pas encore lu, je vous le recommande chaudement puisqu'il est rarissime d'avoir ce type d'informations de la part de Google.
J'avais envie de revenir sur plusieurs points de cet article et notamment sur l'indice QDF : "Query Deserves Freshness". Google a toujours été friand des indices et cela n'est pas étonnant lorsque l'on voit le succès du PageRank ou du TrustRank auprès des webmasters.
Avant de rentrer dans le vif du sujet, il me semble important de faire un petit rappel sur la fameuse "Prime de fraicheur". Cette prime accordée par Google pour les nouvelles pages qu'il indexe accorde une sorte de "boost" et permet à des pages récentes d'atteindre des positions intéressantes rapidement dans les pages de résultats. Puis, au bout d'un certain temps (le plus souvent assez rapidement), la page "primée" perd cette prime et prend sa place "légitime" dans le classement.
Il semble qu'il y ai un certain consensus autour de ce mécanisme, fréquemment constaté par de nombreux référenceurs. Bien entendu, il serait bien difficile de le prouver de "manière scientifique" comme souvent avec le référencement naturel...
La fraicheur d'une page est donc un élément déjà utilisé par Google et n'a donc rien de nouveau. Le QDF permet à Google de déterminer la quantité de "pages fraiches" à inclure dans les SERP (Search Engine Results Page) pour une requête donnée. Ainsi une requête sur un sujet d'actualité obtiendra un QDF fort alors qu'une requête telle que "homo sapiens" aurait toutes les chances de se voir attribuer un QDF faible (sauf si l'on découvre demain des restes en excellent état congelés dans la glace). L'objectif est d'augmenter la qualité des résultats. En effet, quoi de plus frustrant lorsque l'on est à la recherche d'une information récente de tomber sur un article de 2003...
D'ailleurs, j'avoue avoir tendance à ne pas utiliser les moteurs de recherche lorsque je suis à la recherche d'une information récente : Évènements politiques, résultats sportifs, Actualité internationale etc... Vous aussi ?
Pour l'instant, Google a généralement tendance à préférer les pages "anciennes", jugées dignes de confiance pour réaliser son classement. Cet indice et surtout ce mode de fonctionnement permet de formuler une série d'hypothèses.
Si Google cherche et arrive à déterminer la fraicheur d'une requête, il existe certainement les indices suivants :
- HON (Hot Or Not) : Détermine si une requête est à caractère pornographique ou non
- LFCWB (Looking For Commercial Web Site) : Détermine si l'internaute est "dans une logique d'achat"
- IAB (Is A Brand) : Détermine si la requête est une marque ou un nom de site
- GS (Geographical Search) : Détermine si la requête contient une référence géographique
Comme vous pouvez le voir, les possibilités sont quasi infinies et n'ont pour limite que l'imagination et le talent (pour traduire ces concepts en formules mathématiques) des ingénieurs Google. On peut alors imaginer que Google calcule pour chaque requête une série d'indices permettant de comprendre ce que recherche l'internaute. L'objectif final est comme toujours avec Google la pertinence des résultats.
En admettant que Google calcule des indices sur les requêtes saisies par les internautes pour mieux les comprendre, il ne serait pas surprenant que Google élabore de tels indices pour chaque domaine indexé.
Ainsi, nous pouvons imaginer :
- IAB (Is A Board) : Détermine si un site est un forum de discussion (Rien à voir avec l'Internet Advertising Bureau)
- IAB2 (Is A Blog) : Détermine si un site est un blog
- IAD (Is A Directory) : Détermine si un site est un annuaire
- IACWS (Is A Commercial Web Site) : Détermine si un site est un site commercial
Là encore, les possibilités sont nombreuses. Imaginons une seconde des milliers d'indices portant sur chaque "grande thématique". Il serait ainsi possible pour Google de déterminer qu'un site est : Le blog d'un site commercial ayant pour thématique la bière.
Afin de calculer ces indices, Google a à sa disposition une myriade d'indicateurs. Par exemple :
- Les statistiques relatives aux requêtes dans son moteur pour chaque site (cf. Google Webmaster Tools)
- L'analyse du contenu des pages du site. Adsense nous prouve que Google arrive en partie a discerner la thématique d'une page
- L'analyse des termes présents dans les urls
- L'analyse des thématique des sites proposant des backlinks vers le site analysé
- L'analyse des ancres des backlinks (cf. Google Webmaster Tools)
- Si le webmaster utilise Google Anlytics, cela devient un jeu d'enfant...
Les applications et possibilités qui en découlent sont certainement gigantesques :
- Application de filtres thématiques
- Corrélation entre les indices portant sur les requêtes et ceux portant sur les sites pour augmenter la pertinence des pages de résultats
- Déclenchement d'algorithmes spécifiques
- Etc...
Bien entendu la majorité de cet article n'est qu'une série d'hypothèses qui relève certainement plus d'un délire de référenceur que de la réalité, quoique ? Qu'en pensez-vous ? Je suis curieux d'avoir votre avis sur la question.