Score de TF-IDF: l'ancêtre de la recherche sémantique

Étiquettes : , ,

Le score de TF-IDF est une métrique historique en référencement naturel. Petit retour aux sources de la fouille sémantique de contenu web.

Depuis les débuts du référencement web, le dada des moteurs de recherche: ce sont les algorithmes, plus ou moins complexes. À l’origine, était le score de TF-IDF, une métrique pour classer un contenu web selon sa pertinence par rapport à un mot clé donné ou groupe de mots clés.

Score de TF-IDF, un indice de qualité sémantique

Créé dans les années 80 par Salton, le TF-IDF (aussi appelé Cosinus de Salton) est l’acronyme pour Terme Frequency et Inverse Document Frequency:

  • Le TF sert au calcul de la fréquence ou densité d’un mot clé au sein d’un contenu web: nombre de fois que le mot clé apparaît / nombre de mots.
  • L’IDF introduit la notion d’importance qualitative du mot clé: nombre de contenus / nombre de contenus contenant le terme. Il évalue la rareté du mot clé dans un corpus d’autres contenus ayant un même champ lexical.

Et ce qui est rare et optimisé, est cher! En référencement, on dit pertinent, générateur de trafic et performant dans le SERP. En multipliant le TF et l’IDF, le principe du score de TF-IDF est d’évaluer la quantité et la qualité lexicale d’un mot clé dans un contenu mais aussi au sein de son cocon sémantique.

TF-IDF et SEO, vers plus de pondération

Critères de pertinence, structures en siloing… Pas si déclassé que ça, le TF-IDF! Il a quand-même subi quelques ravalements de façade pour rester dans le coup:

  • 1996, Robertson: introduction de 2 nouveaux facteurs, la taille du contenu analysé et la taille moyenne des contenus du corpus. Afin de gagner en précision pour analyser des textes de taille très différente. Ce TF-IDF BM25 passe du modèle vectoriel de similarité à un modèle plus évolué de pondération.
  • 2007, Karbasi: introduction du facteur de degré d’importance d’un mot clé dans un contenu, degré non plus défini par sa fréquence mais sa place dans la liste des termes triés par leur fréquence. Afin de mettre en place un système qui booste les mots clés réellement importants.

De l’avis des spécialistes, il semblerait que Google et Bing utilisent aujourd’hui un modèle proche du TF-IDF BM25 pour mesurer la pertinence des contenus web sur des requêtes données.

Et vous, vous aviez déjà entendu parler du TF-IDF? Vous l’utilisez dans votre stratégie SEO?

 

Enregistrer

Enregistrer

Enregistrer


Devenez chroniqueur

Vous souhaitez devenir chroniqueur ou nous soumettre un article? Rien de plus simple.

Ça m'intéresse

#EPW sur Twitter

#EPW sur Facebook

À propos

Votre blog Écrire pour le web en chiffres
  • Plus de 25.000 sessions par mois
  • Plus de 35.000 pages vue chaque mois
  • 1500 abonnés à la newsletter
  • Créé en 2006
  • 1e position dans Google sur des expressions métier
En savoir plus