Search

Qu’est-ce que l’indexation sémantique latente et pourquoi cela n’a pas d’importance pour le référencement


De nombreuses revendications sont faites pour l’indexation sémantique latente (LSI) et les «mots-clés LSI» pour le référencement.

Certains disent même que Google s’appuie sur des «mots clés LSI» pour comprendre les pages Web.

Cela a été discuté pendant près de vingt ans et les faits fondés sur des preuves ont été là tout le temps.

Il s’agit d’une indexation sémantique latente

L’indexation sémantique latente (également appelée analyse sémantique latente) est une méthode d’analyse d’un ensemble de documents afin de découvrir des cooccurrences statistiques de mots qui apparaissent ensemble, qui donnent ensuite un aperçu des sujets de ces mots et documents.

Deux des problèmes (parmi plusieurs) que LSI se propose de résoudre sont les problèmes de synonymie et de polysémie.

La synonymie est une référence au nombre de mots pouvant décrire la même chose.

Une personne à la recherche de «recettes de flapjack» équivaut à une recherche de «recettes de crêpes» (en dehors du Royaume-Uni) car les flapjacks et les crêpes sont synonymes.

Publicité

Continuer la lecture ci-dessous

La polysémie fait référence à des mots et des phrases qui ont plus d’un sens. Le mot jaguar peut signifier un animal, une automobile ou une équipe de football américain.

LSI est capable de prédire statistiquement la signification d’un mot en analysant statistiquement les mots qui cohabitent avec lui dans un document.

Si le mot «jaguar» est accompagné dans un document du mot «Jacksonville», il est statistiquement probable que le mot «jaguar» fait référence à une équipe de football américaine.

En comprenant comment les mots se produisent ensemble, un ordinateur est mieux en mesure de répondre à une requête en associant correctement les bons mots-clés à la requête de recherche.

Le brevet pour LSI a été déposé le 15 septembre 1988. C’est une vieille technologie qui est venue des années avant l’Internet tel que nous le connaissons.

LSI n’est ni nouveau ni à la pointe de la technologie.

Il est important de comprendre qu’en 1988, LSI faisait progresser l’état de l’art de la correspondance de texte simple.

LSI a précédé Internet et a été créé à une époque où les ordinateurs Apple ressemblaient à ceci:

image d'un ordinateur Apple Macintosh SE de 1988

LSI a été créé lorsqu’un ordinateur professionnel populaire (IBM AS / 400) ressemblait à ceci:

Image d'un ordinateur IBM AS400 de 1988

LSI est une technologie qui remonte à loin.

Publicité

Continuer la lecture ci-dessous

Tout comme les ordinateurs de 1988, l’état de l’art en matière de recherche d’informations a parcouru un long chemin au cours des 30 dernières années.

LSI n’est pas pratique pour le Web

Un inconvénient majeur de l’utilisation de l’indexation sémantique latente pour l’ensemble du Web est que les calculs effectués pour créer l’analyse statistique doivent être recalculés chaque fois qu’une nouvelle page Web est publiée et indexée.

Cette lacune est mentionnée dans un article de recherche de 2003 (non Google) sur l’utilisation de LSI pour détecter le spam d’e-mails (Utilisation de l’indexation sémantique latente pour filtrer les spams PDF).

Le document de recherche note:

«Un problème avec LSI est qu’il ne prend pas en charge l’ajout ad hoc de nouveaux documents une fois que l’ensemble sémantique a été généré. Toute mise à jour de n’importe quelle valeur de cellule changera le coefficient dans tous les autres vecteurs de mot, car SVD utilise toutes les relations linéaires dans sa dimensionnalité assignée pour induire des vecteurs qui prédiront tous les échantillons de texte dans lesquels le mot apparaît … »

J’ai interrogé Bill Slawski sur l’inadéquation de LSI pour la recherche d’informations sur les moteurs de recherche et il a accepté, en disant:

«LSI est une approche d’indexation plus ancienne développée pour les petites bases de données statiques. Il existe des similitudes avec les technologies plus récentes telles que l’utilisation de vecteurs de mots ou word2Vec.

L’une des limites de LSI est que si un nouveau contenu est ajouté à un corpus, l’indexation de l’ensemble du corpus est nécessaire, ce qui en fait une utilité limitée pour un corpus en évolution rapide tel que le Web. »

Existe-t-il un document de recherche sur les mots clés Google LSI?

Certains membres de la communauté de recherche pensent que Google utilise des «mots-clés LSI» dans leur algorithme de recherche comme si LSI était toujours une technologie de pointe.

Pour le prouver, certains se réfèrent à un article de recherche de 2016 intitulé Amélioration du clustering de sujets sémantiques pour les requêtes de recherche avec cooccurrence de mots et co-clustering Bigraph (PDF).

Ce document de recherche n’est absolument pas un exemple d’indexation sémantique latente. C’est une technologie complètement différente.

En fait, ce document de recherche ne concerne tellement pas le LSI (alias Latent Semantic Analysis) qu’il cite un article de recherche LSI de 1999 ([5] T. Hofmann. Indexation sémantique latente probabiliste. … 1999) dans le cadre d’une explication des raisons pour lesquelles le LSI n’est pas utile pour le problème que les auteurs tentent de résoudre.

Publicité

Continuer la lecture ci-dessous

Voici ce qu’il dit:

«L’allocation de dirichlet latente (LDA) et l’analyse sémantique latente probabiliste (PLSA) sont des techniques largement utilisées pour dévoiler des thèmes latents dans des données textuelles. … Ces modèles apprennent les sujets cachés en tirant implicitement parti des modèles de cooccurrence de mots au niveau du document.

Cependant, les textes courts – tels que les requêtes de recherche, les tweets ou les messages instantanés – souffrent de la rareté des données, ce qui pose des problèmes pour les techniques traditionnelles de modélisation de sujets. »

C’est une erreur d’utiliser le document de recherche ci-dessus comme preuve que Google utilise LSI comme un facteur de classement important. Le papier ne parle pas de LSI et il ne s’agit même pas d’analyser des pages Web.

C’est un article de recherche intéressant de 2016 sur les requêtes de recherche courtes d’exploration de données afin de comprendre ce qu’elles signifient.

Mis à part ce document de recherche, nous savons que Google utilise BERT et les technologies de correspondance neuronale pour comprendre les requêtes de recherche dans le monde réel.

Pour faire court: l’utilisation de ce document de recherche pour faire une déclaration définitive sur l’algorithme de classement de Google est sommaire.

Publicité

Continuer la lecture ci-dessous

Google utilise-t-il des mots-clés LSI?

Dans le marketing de recherche, il existe deux types de données fiables et faisant autorité:

  1. Idées factuelles basées sur des documents publics tels que des documents de recherche et des brevets.
  2. Des idées de référencement basées sur ce que les Googleurs ont révélé.

Tout le reste n’est qu’une simple opinion.

Il est important de connaître la différence.

John Mueller de Google a clairement démystifié le concept de mots-clés LSI.

Bill Slawski, expert en brevets de recherche réputé, a également été franc sur la notion d’indexation sémantique latente et de référencement.

Les déclarations de Bill sur LSI sont basées sur une connaissance approfondie des algorithmes de Google, qu’il a partagés dans des articles factuels (comme ici et ici).

Publicité

Continuer la lecture ci-dessous

Bill Slawski tweete son opinion éclairée sur l’indexation sémantique latente

Pourquoi Google est associé à l’analyse sémantique latente

Bien qu’il n’y ait aucune preuve en termes de brevets et de documents de recherche que LSI / LSA sont des facteurs importants liés au classement, Google est toujours associé à l’indexation sémantique latente.

L’une des raisons en est l’acquisition par Google en 2003 d’une société appelée Applied Semantics.

Applied Semantics avait créé une technologie appelée Circa. Circa était un algorithme d’analyse sémantique utilisé dans AdSense et également dans Google AdWords.

Publicité

Continuer la lecture ci-dessous

Selon le communiqué de presse de Google:

«Applied Semantics est un innovateur reconnu dans le traitement de texte sémantique et la publicité en ligne», a déclaré Sergey Brin, cofondateur et président de la technologie de Google. «Cette acquisition permettra à Google de créer de nouvelles technologies qui rendent la publicité en ligne plus utile aux utilisateurs, aux éditeurs et aux annonceurs.

Les produits d’Applied Semantics sont basés sur sa technologie brevetée CIRCA, qui comprend, organise et extrait les connaissances des sites Web et des référentiels d’informations d’une manière qui imite la pensée humaine et permet une recherche d’informations plus efficace. Une application clé de la technologie CIRCA est le produit AdSense d’Applied Semantics, qui permet aux éditeurs Web de comprendre les thèmes clés des pages Web afin de diffuser des publicités hautement pertinentes et ciblées. »

Analyse sémantique et référencement

L’expression «analyse sémantique» était un mot à la mode au début des années 2000, peut-être en partie motivé par la technologie de recherche sémantique d’Ask Jeeves.

L’achat par Google d’Applied Semantics a accéléré la tendance à associer Google à l’indexation sémantique latente, malgré l’absence de preuves crédibles.

Publicité

Continuer la lecture ci-dessous

Ainsi, en 2005, la communauté du marketing de recherche faisait des déclarations non fondées telles que celle-ci:

«Pendant plusieurs mois, j’ai remarqué des changements dans le classement des sites Web sur Google et il était clair que quelque chose avait changé dans leur algorithme.

L’un des changements les plus importants est la probabilité que Google accorde désormais plus de poids à l’indexation sémantique latente (LSI).

Cela ne devrait pas surprendre étant donné que Google a acheté Applied Semantics en avril 2003 et aurait diffusé ses annonces AdSense à l’aide d’une indexation sémantique latente. « 

Le mythe du référencement selon lequel Google utilise les mots-clés LSI provient probablement de la popularité d’expressions telles que «Analyse sémantique», «Indexation sémantique» et «Recherche sémantique», devenues des mots à la mode pour le référencement, grâce à la technologie de recherche sémantique d’Ask Jeeves et à l’achat de sémantique par Google société d’analyse Applied Semantics.

Les faits sur l’indexation sémantique latente

LSI est une méthode très ancienne pour comprendre ce qu’est un document.

Il a été breveté en 1988, bien avant Internet tel que nous le connaissons.

Publicité

Continuer la lecture ci-dessous

La nature de LSI le rend impropre à l’application sur tout Internet à des fins de recherche d’informations.

Aucun article de recherche ne montre explicitement que l’indexation sémantique latente est une caractéristique importante du classement de recherche Google.

Les faits présentés dans cet article montrent que c’est le cas depuis le début des années 2000.

Des rumeurs sur l’utilisation par Google de LSI et LSA ont fait surface en 2003 après que Google a acquis Applied Semantics, la société qui a produit le produit de publicité contextuelle AdSense.

Pourtant, les googleurs ont affirmé à plusieurs reprises que Google n’utilise pas de mots clés LSI.

Permettez-moi de le répéter plus fort pour ceux qui sont à l’arrière: il n’existe pas de mots-clés LSI.

Compte tenu de la quantité écrasante de preuves, il est raisonnable d’affirmer que c’est un fait que le concept de mots-clés LSI est faux.

Les faits indiquent également que LSI n’est pas une partie importante des algorithmes de classement de Google.

Considérée à la lumière des récents progrès de l’IA, du traitement du langage naturel et du BERT, l’idée que Google utiliserait LSI de manière proéminente comme fonction de classement est littéralement au-delà de toute croyance et ridicule.

Publicité

Continuer la lecture ci-dessous

Plus de ressources:


Image présentée par l’auteur



Auteur/autrice

Partager:

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles Similaires